Galeria de mapas mentais rede neural totalmente conectada
Introdução de classificação detalhada de redes neurais totalmente conectadas Redes neurais totalmente conectadas em cascata múltiplas transformações para obter mapeamento de entrada para saída.
Editado em 2023-07-27 22:52:26Il s'agit d'une carte mentale sur les anévrismes intracrâniens, avec le contenu principal, notamment: le congé, l'évaluation d'admission, les mesures infirmières, les mesures de traitement, les examens auxiliaires, les manifestations cliniques et les définitions.
Il s'agit d'une carte mentale sur l'entretien de comptabilité des coûts, le principal contenu comprend: 5. Liste des questions d'entrevue recommandées, 4. Compétences de base pour améliorer le taux de réussite, 3. Questions professionnelles, 2. Questions et réponses de simulation de scénarios, 1. Questions et réponses de capacité professionnelle.
Il s'agit d'une carte mentale sur les méthodes de recherche de la littérature, et son contenu principal comprend: 5. Méthode complète, 4. Méthode de traçabilité, 3. Méthode de vérification des points, 2. Méthode de recherche inversée, 1. Méthode de recherche durable.
Il s'agit d'une carte mentale sur les anévrismes intracrâniens, avec le contenu principal, notamment: le congé, l'évaluation d'admission, les mesures infirmières, les mesures de traitement, les examens auxiliaires, les manifestations cliniques et les définitions.
Il s'agit d'une carte mentale sur l'entretien de comptabilité des coûts, le principal contenu comprend: 5. Liste des questions d'entrevue recommandées, 4. Compétences de base pour améliorer le taux de réussite, 3. Questions professionnelles, 2. Questions et réponses de simulation de scénarios, 1. Questions et réponses de capacité professionnelle.
Il s'agit d'une carte mentale sur les méthodes de recherche de la littérature, et son contenu principal comprend: 5. Méthode complète, 4. Méthode de traçabilité, 3. Méthode de vérification des points, 2. Méthode de recherche inversée, 1. Méthode de recherche durable.
rede neural totalmente conectada
definição
Redes neurais totalmente conectadas realizam múltiplas transformações em cascata para obter mapeamento de entrada para saída.
Rede totalmente conectada de duas camadas
Comparado
classificador linear
W pode ser considerado um modelo, e o número de modelos é determinado pelo número de categorias.
Totalmente conectado
W1 também pode ser considerado um modelo
W2 combina os resultados correspondentes de vários modelos para alcançar a pontuação final da categoria
não linear
composição
Uma camada de entrada, uma camada de saída e múltiplas camadas ocultas
função de ativação
Funções de ativação comumente usadas
Sigmóide
ReLU
Tanh
ReLU com vazamento
Projeto de estrutura de rede
Quanto maior o número de neurônios, mais complexa será a interface e mais forte será a capacidade de classificação desse conjunto.
A complexidade do modelo de rede neural é ajustada de acordo com a dificuldade da tarefa de classificação. Quanto mais difícil a tarefa, mais profunda e ampla deve ser a estrutura da rede neural projetada, mas deve-se prestar atenção ao fenômeno do overfitting.
SOFTMAX e perda de entropia cruzada
softmax
Normalize os resultados de saída
Converta resultados de saída em probabilidades
perda de entropia
Usado para medir a diferença do valor real (código one-hot) - divergência KL
otimização
Gráfico computacional
etapa
Qualquer função complexa pode ser expressa na forma de um gráfico computacional
Ao longo do gráfico computacional, cada unidade de porta recebe alguma entrada e então realiza cálculos
O valor de saída desta porta
O gradiente local do seu valor de saída em relação ao valor de entrada
Usando a regra da cadeia, a unidade de porta deve multiplicar o gradiente retornado pelo gradiente local de sua entrada para obter o gradiente de saída de toda a rede para cada valor de entrada da unidade de porta.
Unidades de porta comuns
Portão de adição
portão de multiplicação
copiar portão
porta máxima
pergunta
gradiente desaparece
Devido às propriedades multiplicativas da regra da cadeia
explosão gradiente
Devido às propriedades multiplicativas da regra da cadeia
Solução
Use a função de ativação apropriada
método de impulso
Reduza o tamanho do passo da direção de oscilação
vantagem
Saia do ponto de sela de alta dimensão
Sair dos ótimos locais e dos pontos de sela
método de gradiente adaptativo
Reduza o tamanho do passo na direção de oscilação e aumente o tamanho do passo na direção plana.
O quadrado da amplitude do gradiente é a direção da oscilação
O quadrado da amplitude do gradiente é a direção plana.
Método RMSProp
ADÃO
Uma combinação do método do momento e do método do gradiente adaptativo, mas precisa ser corrigido para evitar ser muito lento durante a partida a frio.
Resumir
O método Momentum SGD é o melhor, mas requer ajuste manual
ADAM é fácil de usar, mas difícil de otimizar
Inicialização de peso
inicialização totalmente zero
não muito bom
inicialização aleatória
Use distribuição gaussiana
Existe uma grande probabilidade de que o gradiente desapareça e o fluxo de informações desapareça.
Inicialização Xavier
A variação dos valores de ativação dos neurônios em cada camada é basicamente a mesma.
resumo
Um bom método de inicialização pode evitar o desaparecimento de informações durante a propagação direta e também pode resolver o problema do desaparecimento do gradiente durante a propagação reversa.
Ao selecionar tangente hiperbólica ou Sigmóide como função de ativação, é recomendado usar o método de inicialização Xaizer
Ao selecionar ReLU ou Leakly ReLU como função de ativação, é recomendado usar o método de inicialização He.
normalização de lote
chamada camada BN
método
Ajuste a distribuição de peso para que a entrada e a saída tenham a mesma distribuição
Ajuste a saída y após o treinamento em lote - subtraia a média para remover a variação
Entre eles, a média e a variância da distribuição dos dados precisam ser determinadas de forma independente de acordo com a contribuição para a classificação.
beneficiar
Resolva o problema do desaparecimento do sinal e do gradiente durante a passagem direta
Sobreajuste e subajuste
sobreajuste
Quando a capacidade do modelo diminui no conjunto de treinamento e começa a aumentar no conjunto de validação, ele começa a se ajustar demais.
Ao aprender, o modelo selecionado contém muitos parâmetros, resultando em boas previsões para dados conhecidos, mas em previsões ruins para dados desconhecidos.
Normalmente, os dados de treinamento são memorizados em vez dos recursos dos dados aprendidos.
solução
Obtenha mais dados de treinamento
Regular o modelo para permitir informações ou restringi-las - regularização
Ajustar o tamanho do modelo
Restringir pesos de modelo, regularização de peso
Desativação aleatória (dropout)
Deixe os neurônios da camada oculta não serem ativados com uma certa probabilidade
concluir
Durante o processo de treinamento, usar dropout em uma determinada camada significa descartar aleatoriamente algumas saídas da camada. Esses neurônios descartados parecem ter sido deletados pela rede.
taxa de perda aleatória
é a proporção de recursos definida como 0, geralmente na faixa de 0,2-0,5
Pode ser considerado como um modelo de integração de múltiplas redes pequenas.
Subajuste
A capacidade de descrição do modelo é muito fraca para aprender bem os padrões nos dados.
Geralmente o modelo é muito simples
Ajuste de hiperparâmetros
taxa de Aprendizagem
é muito grande
Não é possível convergir
Muito grande
Oscila perto do valor mínimo e não consegue atingir o valor ideal.
muito pequeno
Longo tempo de convergência
Moderado
Convergência rápida e bons resultados
otimização
método de pesquisa em grade
Cada hiperparâmetro assume vários valores e esses hiperparâmetros são combinados para formar vários conjuntos de hiperparâmetros.
Avalie o desempenho do modelo para cada conjunto de hiperparâmetros no validador
Selecione o conjunto de valores usado pelo modelo de melhor desempenho como os valores finais do hiperparâmetro.
Método de pesquisa aleatória
Selecione aleatoriamente pontos no espaço de parâmetros, cada ponto corresponde a um conjunto de hiperparâmetros
Avalie o desempenho do modelo para cada conjunto de hiperparâmetros no conjunto de validação
Selecione o conjunto de valores utilizado pelo modelo com melhor desempenho como valores finais do hiperparâmetro.
Geralmente, a amostragem aleatória é feita no espaço logarítmico.