Conecte-se
Fazer login

Galeria de mapas mentais A base das redes neurais e do aprendizado profundo

A base das redes neurais e do aprendizado profundo

Ele resume as estruturas de rede neural mais básicas - MLP perceptron multicamadas e rede feedforward FNN. Nesta base, ele resume a função objetivo e a tecnologia de otimização da rede neural. coeficiente de peso, bem como tecnologias auxiliares para otimização de redes neurais, como inicialização, regularização, etc.

Editado em 2023-02-23 17:40:31

WSCoUtCI

Trabalhos recentes Ver mais trabalhos>>

A base das redes neurais e do aprendizado profundo

WSCoUtCI

Trabalhos recentes Ver mais trabalhos>>

Recomendado para você
Descrição

Atenção é tudo que você precisa
- 9
WSysQn6v
Aprendizagem em conjunto
- 6
WSysQn6v
agrupamento hierárquico
- 5
WSysQn6v
DBSCAN
- 10
WSysQn6v
K-meios
- 13
WSysQn6v
Árvore de conhecimento de big data
- 19
슈퍼직장인
Capítulo 3 Modelo Linear
- 10
슈퍼직장인
IA
- 58
WSb6eYgD
Desenvolvimento de Tecnologia de Inteligência Artificial
- 6
WSb6eYgD
IA
- 9
WSb6eYgD

Redes Neurais e Aprendizado Profundo Base

Estrutura básica da rede neural

estrutura do neurônio

soma ponderada

sinal de estímulo

sináptico/ponderado

valor de ativação

função de ativação

função descontínua

função simbólica

perceptron

função limite

Neurônios McCulloch-Pitts

função continuamente diferenciável

Função Sigmóide Logística

Função tangente hiperbólica tanh()

deficiência

Quando o valor de ativação a é grande, a função entra na região de saturação e a derivada correspondente fica próxima de 0. No algoritmo de aprendizado por gradiente, a convergência torna-se muito lenta ou até estagnada. A função ReLU converge mais rápido

Função ReLU

ReLU clássico

ReLU com vazamento

Resumo

A estrutura computacional dos neurônios

A soma ponderada linear produz valores de ativação A função de ativação não linear produz saída

Rede neural multicamadas resolve problema XOR

perceptron

Função de ativação simbólica de combinação linear

A inseparabilidade linear não converge

Como operação XOR

Solução linearmente inseparável

O vetor de função de base não linear substitui o autovetor original.

Use vários neurônios para formar uma rede neural multicamadas

Como os neurônios estão conectados

Como bloco de construção básico, os neurônios são conectados em uma rede multicamadas por meio de estruturas paralelas e em cascata.

Conexão paralela

Vários neurônios na mesma camada recebem o mesmo vetor de recursos de entrada x e produzem múltiplas saídas, respectivamente.

Modo cascata

Vários neurônios conectados em paralelo produzem saídas, que são passadas para os neurônios na próxima camada como entrada.

Perceptron multicamadas MLP Rede neural feedforward FNN

Estrutura perceptron multicamadas

camada de entrada

O número de unidades na camada de entrada é a dimensão D do vetor de recursos de entrada.

Matriz de recursos de entrada N×D

Cada linha corresponde a uma amostra, e o número de linhas é o número de amostras N

O número de colunas é a dimensão do vetor de recursos D

Camada oculta

Camada 1

Matriz de entrada N×D

é a matriz de recursos original

Matriz de coeficiente de peso D×K1

O coeficiente de peso de cada neurônio corresponde a um vetor coluna D-dimensional

Um total de neurônios K1 formam uma matriz D×K1.

Vetor de polarização N×K1

Cada linha corresponde a um viés amostral, um total de N linhas

O número de colunas é o número de neurônios K1

Matriz de saída N×K1

Z=φ(A)=φ(XW W0)

Camada 2

Matriz de entrada N×K1

Matriz de saída da camada superior

Matriz de coeficiente de peso K1×K2

O coeficiente de peso de cada neurônio corresponde a um vetor coluna de dimensão K1

Um total de neurônios K2 formam uma matriz de K1×K2

Vetor de polarização N×K2

Cada linha corresponde a um viés amostral, um total de N linhas

O número de colunas é o número de neurônios K2

Matriz de saída N×K2

Z=φ(A)=φ(XW W0)

m-ésima camada

Matriz de entrada N×K(m-1)

Matriz de saída da camada superior

Matriz de coeficiente de peso K(m-1)×Km

O coeficiente de peso de cada neurônio corresponde a um vetor coluna K (m-1) dimensional

Um total de neurônios Km formam uma matriz de K(m-1)×Km

Vetor de polarização N×Km

Cada linha corresponde a um viés amostral, um total de N linhas

O número de colunas é o número de neurônios Km

Matriz de saída N×Km

Z=φ(A)=φ(XW W0)

camada de saída

Matriz de entrada N×K(L-1)

Matriz de saída da camada superior

Matriz de coeficiente de peso K(L-1)×KL

O coeficiente de peso de cada neurônio corresponde a um vetor coluna K (L-1) dimensional

Um total de neurônios KL formam uma matriz de K(L-1)×KL

Vetor de polarização N×KL

Cada linha corresponde a um viés amostral, um total de N linhas

O número de colunas é o número de neurônios KL

Matriz de saída N×KL

Z=φ(A)=φ(XW W0)

A relação operacional do perceptron multicamadas Estrutura do programa

digitar

A saída do j-ésimo neurônio na m-ésima camada

soma ponderada

A saída da camada superior é usada como entrada desta camada

função de ativação

saída

Representação de saída de rede neural

Observação

O número de neurônios na camada de saída indica que a rede neural pode ter múltiplas funções de saída ao mesmo tempo.

problema de regressão

A saída do neurônio da camada de saída é a saída da função de regressão.

Duas categorias

O neurônio da camada de saída gera a probabilidade posterior do tipo positivo, e a função Sigmóide representa a probabilidade posterior do tipo.

Múltiplas categorias

Cada neurônio na camada de saída gera a probabilidade posterior de cada tipo, e a função Softmax representa a probabilidade de cada tipo.

Mapeamento não linear de rede neural

A diferença da regressão da função básica

Determinação de parâmetros

As funções básicas para regressão da função básica são predeterminadas

Os parâmetros da função básica da rede neural fazem parte dos parâmetros do sistema e precisam ser determinados por meio de treinamento.

relacionamento não linear

A regressão da função básica possui apenas um relacionamento não linear entre o vetor de entrada e a saída.

O vetor de entrada e o coeficiente de peso da rede neural têm uma relação não linear com a saída

Exemplo

Rede neural de duas camadas

rede neural de três camadas

Teorema de aproximação da rede neural

Essência da rede neural

Mapeamento do espaço euclidiano D-dimensional para o espaço euclidiano K-dimensional

O vetor de recursos de entrada x é um vetor D-dimensional

A saída y é um vetor K-dimensional

contente

Um MLP que precisa apenas de uma camada de unidades ocultas pode aproximar uma função contínua definida em um intervalo finito com precisão arbitrária.

Funções objetivas e otimização de redes neurais

função objetivo da rede neural

geralmente

Múltiplas situações de saída de regressão

erro soma dos quadrados

Múltiplas situações de saída de classificação binária

entropia cruzada

Situação de saída de classificação K única

entropia cruzada

A derivada da função de perda de amostra em relação à ativação de saída

Otimização de Redes Neurais

função de perda

Funções não convexas altamente não lineares

A solução para minimizar a função de perda satisfaz

Matriz de Hansen H satisfaz definição positiva

Coeficiente de peso da rede neural

Dimensões

Simetria do espaço do coeficiente de peso

A relação entrada-saída permanece inalterada quando os neurônios trocam de posição, e a rede neural é equivalente antes e depois.

Otimização do coeficiente de peso

algoritmo de gradiente completo

algoritmo de gradiente estocástico

algoritmo de gradiente estocástico de minilote

O algoritmo Backpropagation BP calcula gradientes ou derivadas

Algoritmo BP de retropropagação de erro Calcule o gradiente do coeficiente de peso da função de perda

Pensamento

regra da cadeia de derivadas

A derivada da função de perda para a ativação da saída é o erro da saída da regressão para o rótulo

A derivada do coeficiente de peso de ativação é o vetor de entrada

Gradiente da função de perda ou derivada do coeficiente de peso

retropropagação de erro

Não há erro na camada oculta e o impacto do erro precisa ser propagado da camada de saída para a direção de entrada.

Derivação do algoritmo de retropropagação

propagação direta

valor inicial

Camada oculta

camada de saída

Gradiente da camada de saída

Erro na camada de saída

componente gradiente

Retropropagação de camada oculta

Decomposição da cadeia de gradiente de camada oculta

Derivação de Fórmula

Pensamento algorítmico

propagação direta

A saída do neurônio z da camada anterior é ponderada e somada para obter a ativação do neurônio a da próxima camada.

Retropropagação

O erro de propagação da última camada (camada próxima à saída) δ(l 1) é retropropagado para a camada anterior para obter o erro de propagação δ(l) da camada anterior, que é retropropagado para a primeira camada oculta camada (mais próxima da camada oculta de entrada)

processo de algoritmo (Iteração de uma etapa do coeficiente de peso)

valor inicial

propagação direta

Camada oculta

camada de saída

Retropropagação

camada de saída

Camada oculta

componente gradiente

algoritmo de gradiente estocástico de minilote

Forma vetorial do algoritmo de retropropagação

valor inicial

propagação direta

Coeficiente de peso aumentado para ativação do j-ésimo neurônio na camada l

A matriz do coeficiente de peso da l-ésima camada

soma ponderada e ativação

Vetor de erro de propagação da camada de saída

Retropropagação

retropropagação de erro

componente gradiente

O gradiente da matriz vetorial de peso da l-ésima camada

O gradiente do vetor de polarização da l-ésima camada

O gradiente do coeficiente de peso de um neurônio na camada l

Uma extensão do algoritmo de retropropagação

Matriz Jacobiana de rede

Decomposição da matriz Jacobiana

Equação de retropropagação de erro

problema de regressão

Problema de duas classificações

Problema de multiclassificação

Matriz de Hansen para Redes

Alguns problemas no aprendizado de redes neurais

questão fundamental

Função objetiva e cálculo de gradiente

inicialização

Inicialização do coeficiente de peso

Os números de entrada e saída são m e n, respectivamente.

Inicialização Xavier

Inicialização do coeficiente de peso quando a função de ativação é a função ReLU

Normalização do vetor de entrada

Normalização de unidade, representada em um espaço unificado

Regularização

Função de perda regularizada para perda de peso

atualização iterativa

Vários tipos de técnicas de regularização equivalentes

conjunto de amostra aumentado

Girar e transladar uma amostra no conjunto de amostras em vários pequenos ângulos diferentes para formar uma nova amostra

Injetar ruído no vetor de entrada

Adicione ruído aleatório de baixa potência às amostras de entrada para treinamento adversário

técnica de parada antecipada

Detecte o ponto de inflexão do erro de verificação Pare a iteração quando o erro de verificação começar a aumentar para evitar ajuste excessivo.