Galleria mappe mentale Le basi delle reti neurali e del deep learning
Riassume le strutture di rete neurali più basilari: MLP percettrone multistrato e rete feedforward FNN. Su questa base, riassume la funzione obiettivo e la tecnologia di ottimizzazione della rete neurale. L'algoritmo di propagazione posteriore calcola il problema del gradiente della funzione obiettivo sulla rete coefficiente di peso, nonché tecnologie ausiliarie per l'ottimizzazione della rete neurale come inizializzazione, regolarizzazione, ecc.
Modificato alle 2023-02-23 17:40:31Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Questa è una mappa mentale su una breve storia del tempo. "Una breve storia del tempo" è un'opera scientifica popolare con un'influenza di vasta portata. Non solo introduce i concetti di base della cosmologia e della relatività, ma discute anche dei buchi neri e dell'espansione dell'universo. questioni scientifiche all’avanguardia come l’inflazione e la teoria delle stringhe.
Dopo aver letto "Il coraggio di essere antipatico", "Il coraggio di essere antipatico" è un libro filosofico che vale la pena leggere. Può aiutare le persone a comprendere meglio se stesse, a comprendere gli altri e a trovare modi per ottenere la vera felicità.
"Il coraggio di essere antipatico" non solo analizza le cause profonde di vari problemi nella vita, ma fornisce anche contromisure corrispondenti per aiutare i lettori a comprendere meglio se stessi e le relazioni interpersonali e come applicare la teoria psicologica di Adler nella vita quotidiana.
Reti neurali e apprendimento profondo Base
Struttura di base della rete neurale
struttura del neurone
somma ponderata
segnale di stimolo
sinaptico/pesato
valore di attivazione
funzione di attivazione
funzione discontinua
funzione simbolica
percettrone
funzione di soglia
Neuroni di McCulloch-Pitts
funzione continuamente differenziabile
Funzione logistica del sigmoide
Funzione tangente iperbolica tanh()
discordanza
Quando il valore di attivazione a è grande, la funzione entra nella regione di saturazione e la derivata corrispondente è prossima a 0. Nell'algoritmo di apprendimento tramite gradiente, la convergenza diventa molto lenta o addirittura stagnante. La funzione ReLU converge più velocemente
Funzione ReLU
ReLU classico
ReLU che perde
Riepilogo
La struttura computazionale dei neuroni
La somma ponderata lineare produce valori di attivazione La funzione di attivazione non lineare produce un output
La rete neurale multistrato risolve il problema XOR
percettrone
Funzione di attivazione simbolica della combinazione lineare
L'inseparabilità lineare non converge
Come l'operazione XOR
Soluzione linearmente inseparabile
Il vettore della funzione base non lineare sostituisce l'autovettore originale.
Utilizza più neuroni per formare una rete neurale multistrato
Come sono collegati i neuroni
Come elemento costitutivo di base, i neuroni sono collegati in una rete multistrato attraverso strutture parallele e a cascata.
Connessione parallela
Più neuroni nello stesso strato ricevono lo stesso vettore di funzionalità di input x e producono rispettivamente più output.
Modalità a cascata
Più neuroni collegati in parallelo producono ciascuno output, che vengono passati ai neuroni nello strato successivo come input.
MLP Perceptron multistrato Rete neurale feedforward FNN
Struttura multistrato del percettrone
strato di ingresso
Il numero di unità nel livello di input è la dimensione D del vettore delle caratteristiche di input.
Matrice delle caratteristiche di input N×D
Ogni riga corrisponde a un campione e il numero di righe è il numero di campioni N
Il numero di colonne è la dimensione del vettore di funzionalità D
Strato nascosto
Livello 1
Matrice di input N×D
è la matrice delle caratteristiche originale
Matrice dei coefficienti di peso D×K1
Il coefficiente di peso di ciascun neurone corrisponde a un vettore colonna D-dimensionale
Un totale di neuroni K1 forma una matrice D×K1.
Vettore di polarizzazione N×K1
Ogni riga corrisponde a una distorsione del campione, per un totale di N righe
Il numero di colonne è il numero di neuroni K1
Matrice di uscita N×K1
Z=φ(A)=φ(XW W0)
Livello 2
Matrice di input N×K1
Matrice di output dello strato superiore
Matrice dei coefficienti di peso K1×K2
Il coefficiente di peso di ciascun neurone corrisponde a un vettore colonna di dimensione K1
Un totale di neuroni K2 forma una matrice di K1×K2
Vettore di polarizzazione N×K2
Ogni riga corrisponde a una distorsione del campione, per un totale di N righe
Il numero di colonne è il numero di neuroni K2
Matrice di uscita N×K2
Z=φ(A)=φ(XW W0)
ennesimo strato
Matrice di input N×K(m-1)
Matrice di output dello strato superiore
Matrice dei coefficienti di peso K(m-1)×Km
Il coefficiente di peso di ciascun neurone corrisponde a un vettore colonna K(m-1)-dimensionale
Un totale di neuroni Km forma una matrice di K(m-1)×Km
Vettore di polarizzazione N×Km
Ogni riga corrisponde a una distorsione del campione, per un totale di N righe
Il numero di colonne è il numero di neuroni Km
Matrice di output N×Km
Z=φ(A)=φ(XW W0)
strato di uscita
Matrice di input N×K(L-1)
Matrice di output dello strato superiore
Matrice dei coefficienti di peso K(L-1)×KL
Il coefficiente di peso di ciascun neurone corrisponde a un vettore colonna K(L-1)-dimensionale
Un totale di neuroni KL forma una matrice di K(L-1)×KL
Vettore di polarizzazione N×KL
Ogni riga corrisponde a una distorsione del campione, per un totale di N righe
Il numero di colonne è il numero di neuroni KL
Matrice di uscita N×KL
Z=φ(A)=φ(XW W0)
La relazione operativa del percettrone multistrato Struttura del programma
accedere
L'output del neurone j-esimo nello strato m-esimo
somma ponderata
L'output del livello superiore viene utilizzato come input di questo livello
funzione di attivazione
produzione
Rappresentazione dell'output della rete neurale
Nota
Il numero di neuroni nello strato di output indica che la rete neurale può avere più funzioni di output contemporaneamente.
problema di regressione
L'output del neurone dello strato di output è l'output della funzione di regressione.
Due categorie
Il neurone dello strato di output emette la probabilità a posteriori del tipo positivo e la funzione sigmoide rappresenta la probabilità a posteriori del tipo.
Categorie multiple
Ogni neurone nello strato di output restituisce la probabilità a posteriori di ciascun tipo e la funzione Softmax rappresenta la probabilità di ciascun tipo.
Mappatura non lineare della rete neurale
La differenza dalla regressione con funzione di base
Determinazione dei parametri
Le funzioni di base per la regressione della funzione di base sono predeterminate
I parametri funzionali di base della rete neurale fanno parte dei parametri del sistema e devono essere determinati durante l'addestramento.
relazione non lineare
La regressione della funzione base ha solo una relazione non lineare tra il vettore di input e l'output.
Il vettore di input e il coefficiente di peso della rete neurale hanno una relazione non lineare con l'output
Esempio
Rete neurale a due strati
rete neurale a tre strati
Teorema di approssimazione della rete neurale
L'essenza della rete neurale
Mappatura dallo spazio euclideo D-dimensionale allo spazio euclideo K-dimensionale
Il vettore della feature di input x è un vettore D-dimensionale
L'output y è un vettore K-dimensionale
contenuto
Un MLP che necessita solo di uno strato di unità nascoste può approssimare una funzione continua definita in un intervallo finito con precisione arbitraria.
Funzioni obiettivo e ottimizzazione delle reti neurali
Funzione obiettivo della rete neurale
generalmente
Situazioni di output di regressione multipla
errore somma dei quadrati
Situazioni di output di classificazione binaria multipla
entropia incrociata
Situazione di output della classificazione K singola
entropia incrociata
La derivata della funzione di perdita del campione rispetto all'attivazione dell'uscita
Ottimizzazione delle reti neurali
funzione di perdita
Funzioni non convesse altamente non lineari
La soluzione per minimizzare la funzione di perdita è soddisfatta
La matrice di Hansen H soddisfa la definizione positiva
Coefficiente di peso della rete neurale
Dimensioni
Simmetria dello spazio dei coefficienti di peso
La relazione input-output rimane invariata quando i neuroni si scambiano di posizione e la rete neurale è equivalente prima e dopo.
Ottimizzazione del coefficiente di peso
algoritmo di gradiente completo
algoritmo del gradiente stocastico
Algoritmo di gradiente stocastico mini-batch
L'algoritmo BP di backpropagation calcola i gradienti o le derivate
Algoritmo BP di propagazione dell'errore all'indietro Calcolare il gradiente del coefficiente di peso della funzione di perdita
Pensiero
regola della catena dei derivati
La derivata della funzione di perdita rispetto all'attivazione dell'output è l'errore dell'output di regressione all'etichetta
La derivata del coefficiente del peso di attivazione è il vettore di input
Gradiente della funzione di perdita o derivata del coefficiente di peso
propagazione all'indietro dell'errore
Manca l'errore nello strato nascosto e l'impatto dell'errore deve essere propagato dallo strato di output alla direzione di input.
Derivazione dell'algoritmo di backpropagation
propagazione in avanti
valore iniziale
Strato nascosto
strato di uscita
Gradiente del livello di output
Errore del livello di output
componente gradiente
Backpropagation dello strato nascosto
Decomposizione della catena del gradiente dello strato nascosto
Derivazione della formula
Pensiero algoritmico
propagazione in avanti
L'output del neurone z dello strato precedente viene pesato e sommato per ottenere l'attivazione del neurone a dello strato successivo.
Propagazione all'indietro
L'errore di propagazione di quest'ultimo strato (strato vicino all'uscita) δ(l 1) viene retropropagato allo strato precedente per ottenere l'errore di propagazione δ(l) dello strato precedente, che viene retropropagato al primo strato nascosto livello (il più vicino al livello nascosto di input)
processo dell'algoritmo (Iterazione in un unico passaggio del coefficiente di peso)
valore iniziale
propagazione in avanti
Strato nascosto
strato di uscita
Propagazione all'indietro
strato di uscita
Strato nascosto
componente gradiente
Algoritmo di gradiente stocastico mini-batch
Forma vettoriale dell'algoritmo di backpropagation
valore iniziale
propagazione in avanti
Coefficiente di peso aumentato per l'attivazione del neurone j-esimo nello strato l
La matrice dei coefficienti di peso dell'lesimo strato
somma ponderata e attivazione
Vettore dell'errore di propagazione del livello di output
Propagazione all'indietro
propagazione all'indietro dell'errore
componente gradiente
Il gradiente della matrice del vettore dei pesi dell'lesimo strato
Il gradiente del vettore di polarizzazione dell'lesimo strato
Il gradiente del coefficiente di peso di un neurone nello strato l
Un'estensione dell'algoritmo di backpropagation
Matrice Jacobiana della rete
Scomposizione della matrice Jacobiana
Equazione della propagazione all'indietro dell'errore
problema di regressione
Due problemi di classificazione
Problema della multiclassificazione
Matrice Hansen per le reti
Alcuni problemi nell'apprendimento delle reti neurali
questione fondamentale
Funzione obiettivo e calcolo del gradiente
inizializzazione
Inizializzazione del coefficiente di peso
I numeri di input e output sono rispettivamente m e n.
Inizializzazione di Saverio
Inizializzazione del coefficiente di peso quando la funzione di attivazione è la funzione ReLU
Normalizzazione del vettore di input
Normalizzazione dell'unità, rappresentata in uno spazio unificato
Regolarizzazione
Funzione di perdita regolarizzata per decadimento ponderale
aggiornamento iterativo
Diversi tipi di tecniche di regolarizzazione equivalenti
set di campioni aumentato
Ruotare e traslare un campione nel campione impostato a diversi piccoli angoli per formare un nuovo campione
Iniettare rumore nel vettore di input
Aggiungi rumore casuale a bassa potenza ai campioni di input per l'addestramento del contraddittorio
tecnica di arresto anticipato
Rilevare il punto di svolta dell'errore di verifica Interrompere l'iterazione quando l'errore di verifica inizia ad aumentare per evitare l'overfitting.