Galeria de mapas mentais A base das redes neurais e do aprendizado profundo
Ele resume as estruturas de rede neural mais básicas - MLP perceptron multicamadas e rede feedforward FNN. Nesta base, ele resume a função objetivo e a tecnologia de otimização da rede neural. coeficiente de peso, bem como tecnologias auxiliares para otimização de redes neurais, como inicialização, regularização, etc.
Editado em 2023-02-23 17:40:31Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Redes Neurais e Aprendizado Profundo Base
Estrutura básica da rede neural
estrutura do neurônio
soma ponderada
sinal de estímulo
sináptico/ponderado
valor de ativação
função de ativação
função descontínua
função simbólica
perceptron
função limite
Neurônios McCulloch-Pitts
função continuamente diferenciável
Função Sigmóide Logística
Função tangente hiperbólica tanh()
deficiência
Quando o valor de ativação a é grande, a função entra na região de saturação e a derivada correspondente fica próxima de 0. No algoritmo de aprendizado por gradiente, a convergência torna-se muito lenta ou até estagnada. A função ReLU converge mais rápido
Função ReLU
ReLU clássico
ReLU com vazamento
Resumo
A estrutura computacional dos neurônios
A soma ponderada linear produz valores de ativação A função de ativação não linear produz saída
Rede neural multicamadas resolve problema XOR
perceptron
Função de ativação simbólica de combinação linear
A inseparabilidade linear não converge
Como operação XOR
Solução linearmente inseparável
O vetor de função de base não linear substitui o autovetor original.
Use vários neurônios para formar uma rede neural multicamadas
Como os neurônios estão conectados
Como bloco de construção básico, os neurônios são conectados em uma rede multicamadas por meio de estruturas paralelas e em cascata.
Conexão paralela
Vários neurônios na mesma camada recebem o mesmo vetor de recursos de entrada x e produzem múltiplas saídas, respectivamente.
Modo cascata
Vários neurônios conectados em paralelo produzem saídas, que são passadas para os neurônios na próxima camada como entrada.
Perceptron multicamadas MLP Rede neural feedforward FNN
Estrutura perceptron multicamadas
camada de entrada
O número de unidades na camada de entrada é a dimensão D do vetor de recursos de entrada.
Matriz de recursos de entrada N×D
Cada linha corresponde a uma amostra, e o número de linhas é o número de amostras N
O número de colunas é a dimensão do vetor de recursos D
Camada oculta
Camada 1
Matriz de entrada N×D
é a matriz de recursos original
Matriz de coeficiente de peso D×K1
O coeficiente de peso de cada neurônio corresponde a um vetor coluna D-dimensional
Um total de neurônios K1 formam uma matriz D×K1.
Vetor de polarização N×K1
Cada linha corresponde a um viés amostral, um total de N linhas
O número de colunas é o número de neurônios K1
Matriz de saída N×K1
Z=φ(A)=φ(XW W0)
Camada 2
Matriz de entrada N×K1
Matriz de saída da camada superior
Matriz de coeficiente de peso K1×K2
O coeficiente de peso de cada neurônio corresponde a um vetor coluna de dimensão K1
Um total de neurônios K2 formam uma matriz de K1×K2
Vetor de polarização N×K2
Cada linha corresponde a um viés amostral, um total de N linhas
O número de colunas é o número de neurônios K2
Matriz de saída N×K2
Z=φ(A)=φ(XW W0)
m-ésima camada
Matriz de entrada N×K(m-1)
Matriz de saída da camada superior
Matriz de coeficiente de peso K(m-1)×Km
O coeficiente de peso de cada neurônio corresponde a um vetor coluna K (m-1) dimensional
Um total de neurônios Km formam uma matriz de K(m-1)×Km
Vetor de polarização N×Km
Cada linha corresponde a um viés amostral, um total de N linhas
O número de colunas é o número de neurônios Km
Matriz de saída N×Km
Z=φ(A)=φ(XW W0)
camada de saída
Matriz de entrada N×K(L-1)
Matriz de saída da camada superior
Matriz de coeficiente de peso K(L-1)×KL
O coeficiente de peso de cada neurônio corresponde a um vetor coluna K (L-1) dimensional
Um total de neurônios KL formam uma matriz de K(L-1)×KL
Vetor de polarização N×KL
Cada linha corresponde a um viés amostral, um total de N linhas
O número de colunas é o número de neurônios KL
Matriz de saída N×KL
Z=φ(A)=φ(XW W0)
A relação operacional do perceptron multicamadas Estrutura do programa
digitar
A saída do j-ésimo neurônio na m-ésima camada
soma ponderada
A saída da camada superior é usada como entrada desta camada
função de ativação
saída
Representação de saída de rede neural
Observação
O número de neurônios na camada de saída indica que a rede neural pode ter múltiplas funções de saída ao mesmo tempo.
problema de regressão
A saída do neurônio da camada de saída é a saída da função de regressão.
Duas categorias
O neurônio da camada de saída gera a probabilidade posterior do tipo positivo, e a função Sigmóide representa a probabilidade posterior do tipo.
Múltiplas categorias
Cada neurônio na camada de saída gera a probabilidade posterior de cada tipo, e a função Softmax representa a probabilidade de cada tipo.
Mapeamento não linear de rede neural
A diferença da regressão da função básica
Determinação de parâmetros
As funções básicas para regressão da função básica são predeterminadas
Os parâmetros da função básica da rede neural fazem parte dos parâmetros do sistema e precisam ser determinados por meio de treinamento.
relacionamento não linear
A regressão da função básica possui apenas um relacionamento não linear entre o vetor de entrada e a saída.
O vetor de entrada e o coeficiente de peso da rede neural têm uma relação não linear com a saída
Exemplo
Rede neural de duas camadas
rede neural de três camadas
Teorema de aproximação da rede neural
Essência da rede neural
Mapeamento do espaço euclidiano D-dimensional para o espaço euclidiano K-dimensional
O vetor de recursos de entrada x é um vetor D-dimensional
A saída y é um vetor K-dimensional
contente
Um MLP que precisa apenas de uma camada de unidades ocultas pode aproximar uma função contínua definida em um intervalo finito com precisão arbitrária.
Funções objetivas e otimização de redes neurais
função objetivo da rede neural
geralmente
Múltiplas situações de saída de regressão
erro soma dos quadrados
Múltiplas situações de saída de classificação binária
entropia cruzada
Situação de saída de classificação K única
entropia cruzada
A derivada da função de perda de amostra em relação à ativação de saída
Otimização de Redes Neurais
função de perda
Funções não convexas altamente não lineares
A solução para minimizar a função de perda satisfaz
Matriz de Hansen H satisfaz definição positiva
Coeficiente de peso da rede neural
Dimensões
Simetria do espaço do coeficiente de peso
A relação entrada-saída permanece inalterada quando os neurônios trocam de posição, e a rede neural é equivalente antes e depois.
Otimização do coeficiente de peso
algoritmo de gradiente completo
algoritmo de gradiente estocástico
algoritmo de gradiente estocástico de minilote
O algoritmo Backpropagation BP calcula gradientes ou derivadas
Algoritmo BP de retropropagação de erro Calcule o gradiente do coeficiente de peso da função de perda
Pensamento
regra da cadeia de derivadas
A derivada da função de perda para a ativação da saída é o erro da saída da regressão para o rótulo
A derivada do coeficiente de peso de ativação é o vetor de entrada
Gradiente da função de perda ou derivada do coeficiente de peso
retropropagação de erro
Não há erro na camada oculta e o impacto do erro precisa ser propagado da camada de saída para a direção de entrada.
Derivação do algoritmo de retropropagação
propagação direta
valor inicial
Camada oculta
camada de saída
Gradiente da camada de saída
Erro na camada de saída
componente gradiente
Retropropagação de camada oculta
Decomposição da cadeia de gradiente de camada oculta
Derivação de Fórmula
Pensamento algorítmico
propagação direta
A saída do neurônio z da camada anterior é ponderada e somada para obter a ativação do neurônio a da próxima camada.
Retropropagação
O erro de propagação da última camada (camada próxima à saída) δ(l 1) é retropropagado para a camada anterior para obter o erro de propagação δ(l) da camada anterior, que é retropropagado para a primeira camada oculta camada (mais próxima da camada oculta de entrada)
processo de algoritmo (Iteração de uma etapa do coeficiente de peso)
valor inicial
propagação direta
Camada oculta
camada de saída
Retropropagação
camada de saída
Camada oculta
componente gradiente
algoritmo de gradiente estocástico de minilote
Forma vetorial do algoritmo de retropropagação
valor inicial
propagação direta
Coeficiente de peso aumentado para ativação do j-ésimo neurônio na camada l
A matriz do coeficiente de peso da l-ésima camada
soma ponderada e ativação
Vetor de erro de propagação da camada de saída
Retropropagação
retropropagação de erro
componente gradiente
O gradiente da matriz vetorial de peso da l-ésima camada
O gradiente do vetor de polarização da l-ésima camada
O gradiente do coeficiente de peso de um neurônio na camada l
Uma extensão do algoritmo de retropropagação
Matriz Jacobiana de rede
Decomposição da matriz Jacobiana
Equação de retropropagação de erro
problema de regressão
Problema de duas classificações
Problema de multiclassificação
Matriz de Hansen para Redes
Alguns problemas no aprendizado de redes neurais
questão fundamental
Função objetiva e cálculo de gradiente
inicialização
Inicialização do coeficiente de peso
Os números de entrada e saída são m e n, respectivamente.
Inicialização Xavier
Inicialização do coeficiente de peso quando a função de ativação é a função ReLU
Normalização do vetor de entrada
Normalização de unidade, representada em um espaço unificado
Regularização
Função de perda regularizada para perda de peso
atualização iterativa
Vários tipos de técnicas de regularização equivalentes
conjunto de amostra aumentado
Girar e transladar uma amostra no conjunto de amostras em vários pequenos ângulos diferentes para formar uma nova amostra
Injetar ruído no vetor de entrada
Adicione ruído aleatório de baixa potência às amostras de entrada para treinamento adversário
técnica de parada antecipada
Detecte o ponto de inflexão do erro de verificação Pare a iteração quando o erro de verificação começar a aumentar para evitar ajuste excessivo.