Galería de mapas mentales red neuronal completamente conectada
Introducción de clasificación detallada de redes neuronales completamente conectadas. Las redes neuronales completamente conectadas conectan en cascada múltiples transformaciones para lograr un mapeo de entrada a salida. Están compuestas por una capa de entrada, una capa de salida y múltiples capas ocultas.
Editado a las 2023-07-27 22:52:26,Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
Este es un mapa mental sobre una breve historia del tiempo. "Una breve historia del tiempo" es una obra de divulgación científica con una influencia de gran alcance. No sólo presenta los conceptos básicos de cosmología y relatividad, sino que también analiza los agujeros negros y la expansión. del universo. temas científicos de vanguardia como la inflación y la teoría de cuerdas.
¿Cuáles son los métodos de fijación de precios para los subcontratos de proyectos bajo el modelo de contratación general EPC? EPC (Ingeniería, Adquisiciones, Construcción) significa que el contratista general es responsable de todo el proceso de diseño, adquisición, construcción e instalación del proyecto, y es responsable de los servicios de operación de prueba.
Los puntos de conocimiento que los ingenieros de Java deben dominar en cada etapa se presentan en detalle y el conocimiento es completo, espero que pueda ser útil para todos.
red neuronal completamente conectada
definición
Las redes neuronales completamente conectadas realizan múltiples transformaciones en cascada para lograr un mapeo de entrada a salida.
Red totalmente conectada de dos capas
Comparado
clasificador lineal
W puede considerarse como una plantilla y el número de plantillas está determinado por el número de categorías.
Totalmente conectado
W1 también puede considerarse como una plantilla.
W2 combina los resultados coincidentes de múltiples plantillas para lograr la puntuación de categoría final
no lineal
composición
Una capa de entrada, una capa de salida y múltiples capas ocultas
función de activación
Funciones de activación más utilizadas
Sigmoideo
ReLU
tanh
ReLU con fugas
Diseño de estructura de red.
Cuanto mayor es el número de neuronas, más compleja es la interfaz y más fuerte es la capacidad de clasificación en este conjunto.
La complejidad del modelo de red neuronal se ajusta de acuerdo con la dificultad de la tarea de clasificación. Cuanto más difícil sea la tarea, más profunda y amplia debe ser la estructura de la red neuronal diseñada, pero se debe prestar atención al fenómeno del sobreajuste.
SOFTMAX y pérdida de entropía cruzada
softmax
Normalizar los resultados de salida
Convertir los resultados de salida en probabilidades
pérdida de entropía
Se utiliza para medir la diferencia con el valor real (código one-hot): divergencia KL
mejoramiento
Gráfico computacional
paso
Cualquier función compleja se puede expresar en forma de gráfico computacional.
A lo largo del gráfico computacional, cada unidad de puerta recibe alguna entrada y luego realiza cálculos.
El valor de salida de esta puerta.
El gradiente local de su valor de salida con respecto al valor de entrada.
Usando la regla de la cadena, la unidad de puerta debe multiplicar el gradiente devuelto por el gradiente local de su entrada para obtener el gradiente de la salida de toda la red para cada valor de entrada de la unidad de puerta.
Unidades de puerta comunes
Puerta adicional
puerta de multiplicación
puerta de copia
puerta máxima
pregunta
el gradiente desaparece
Debido a las propiedades multiplicativas de la regla de la cadena.
explosión de gradiente
Debido a las propiedades multiplicativas de la regla de la cadena.
Solución
Utilice la función de activación adecuada
método de impulso
Reducir el tamaño del paso de la dirección de oscilación.
ventaja
Salir del punto de silla de alta dimensión
Romper con los óptimos locales y los puntos de silla
método de gradiente adaptativo
Reduzca el tamaño del paso en la dirección de oscilación y aumente el tamaño del paso en la dirección plana.
El cuadrado de la amplitud del gradiente es la dirección de la oscilación.
El cuadrado de la amplitud del gradiente es la dirección plana.
Método RMSProp
ADÁN
Es una combinación del método de impulso y el método de gradiente adaptativo, pero es necesario corregirlo para evitar que sea demasiado lento durante el arranque en frío.
Resumir
El método Momentum SGD es el mejor, pero requiere ajuste manual.
ADAM es fácil de usar, pero difícil de optimizar
Inicialización de peso
inicialización todo cero
no muy bien
inicialización aleatoria
Utilice la distribución gaussiana
Existe una alta probabilidad de que el gradiente desaparezca y el flujo de información desaparezca.
Inicialización de Xavier
La variación de los valores de activación de las neuronas en cada capa es básicamente la misma.
resumen
Un buen método de inicialización puede evitar que la información desaparezca durante la propagación directa y también puede resolver el problema de la desaparición del gradiente durante la propagación inversa.
Al seleccionar tangente hiperbólica o sigmoide como función de activación, se recomienda utilizar el método de inicialización de Xaizer
Al seleccionar ReLU o Leakly ReLU como función de activación, se recomienda utilizar el método de inicialización He.
normalización por lotes
llamada capa BN
método
Ajustar la distribución del peso para que la entrada y la salida tengan la misma distribución.
Ajuste la salida y después del entrenamiento por lotes: reste la media para eliminar la varianza
Entre ellos, la media y la varianza de la distribución de datos deben determinarse de forma independiente en función de la contribución a la clasificación.
beneficio
Resuelva el problema de la desaparición de la señal y la desaparición del gradiente durante el paso hacia adelante.
Sobreajuste y desajuste
sobreajuste
Cuando la capacidad del modelo disminuye en el conjunto de entrenamiento y comienza a aumentar en el conjunto de validación, comienza a sobreajustarse.
Al aprender, el modelo seleccionado contiene demasiados parámetros, lo que da como resultado buenas predicciones para datos conocidos pero malas predicciones para datos desconocidos.
Por lo general, los datos de entrenamiento se memorizan en lugar de las características de los datos aprendidas.
solución
Obtener más datos de entrenamiento
Regular el modelo para permitir información o restringirla - regularización
Ajustar el tamaño del modelo
Restringir los pesos del modelo, regularización de pesos.
Desactivación aleatoria (abandono)
Que las neuronas de la capa oculta no se activen con cierta probabilidad
lograr
Durante el proceso de entrenamiento, usar el abandono en una determinada capa significa descartar aleatoriamente algunas salidas de la capa. Estas neuronas descartadas parecen ser eliminadas por la red.
tasa de pérdida aleatoria
es la proporción de características establecida en 0, generalmente en el rango de 0,2-0,5
Puede considerarse como un modelo de integración de múltiples redes pequeñas.
Falta de adaptación
La capacidad de descripción del modelo es demasiado débil para aprender bien los patrones de los datos.
Generalmente el modelo es demasiado simple.
Ajuste de hiperparámetros
tasa de aprendizaje
es demasiado grande
No se puede converger
Demasiado grande
Oscila cerca del valor mínimo y no puede alcanzar el valor óptimo.
demasiado pequeña
Largo tiempo de convergencia
Moderado
Rápida convergencia y buenos resultados.
mejoramiento
método de búsqueda de cuadrícula
Cada hiperparámetro toma varios valores y estos hiperparámetros se combinan para formar múltiples conjuntos de hiperparámetros.
Evaluar el rendimiento del modelo para cada conjunto de hiperparámetros en el validador
Seleccione el conjunto de valores utilizados por el modelo de mejor rendimiento como valores de hiperparámetros finales.
Método de búsqueda aleatoria
Seleccione aleatoriamente puntos en el espacio de parámetros, cada punto corresponde a un conjunto de hiperparámetros
Evaluar el rendimiento del modelo para cada conjunto de hiperparámetros en el conjunto de validación
Seleccione el conjunto de valores utilizados por el modelo con mejor rendimiento como valores de hiperparámetros finales.
Generalmente, el muestreo aleatorio se realiza en el espacio logarítmico.