Login
Accedi

Galleria mappe mentale Le basi delle reti neurali e del deep learning

Le basi delle reti neurali e del deep learning

Riassume le strutture di rete neurali più basilari: MLP percettrone multistrato e rete feedforward FNN. Su questa base, riassume la funzione obiettivo e la tecnologia di ottimizzazione della rete neurale. L'algoritmo di propagazione posteriore calcola il problema del gradiente della funzione obiettivo sulla rete coefficiente di peso, nonché tecnologie ausiliarie per l'ottimizzazione della rete neurale come inizializzazione, regolarizzazione, ecc.

Modificato alle 2023-02-23 17:40:31

WSZUS4lF

Lavori recenti Visualizza più lavori>>

Le basi delle reti neurali e del deep learning

WSZUS4lF

Lavori recenti Visualizza più lavori>>

Consigliato per te
Profilo

L'attenzione è tutto ciò di cui hai bisogno
- 21
VisioneCreativa
Conoscenza teorica del deep learning
- 17
WSZUS4lF
Sviluppo della tecnologia dell'intelligenza artificiale
- 13
WSCoUtCI
Genera modello
- 15
WSCoUtCI
Convoluzione, denoising, estrazione dei bordi
- 13
WSCoUtCI
Visione artificiale e apprendimento profondo
- 10
WSCoUtCI
Algoritmo di segmentazione delle immagini
- 16
WSZUS4lF
Algoritmo di regressione di base per l'apprendimento automatico
- 9
WSZUS4lF
Tipi comuni e applicazioni dei modelli di rete neurale
- 13
WSZUS4lF
Reti neurali e reti neurali ricorrenti di deep learning
- 10
WSZUS4lF

Reti neurali e apprendimento profondo Base

Struttura di base della rete neurale

struttura del neurone

somma ponderata

segnale di stimolo

sinaptico/pesato

valore di attivazione

funzione di attivazione

funzione discontinua

funzione simbolica

percettrone

funzione di soglia

Neuroni di McCulloch-Pitts

funzione continuamente differenziabile

Funzione logistica del sigmoide

Funzione tangente iperbolica tanh()

discordanza

Quando il valore di attivazione a è grande, la funzione entra nella regione di saturazione e la derivata corrispondente è prossima a 0. Nell'algoritmo di apprendimento tramite gradiente, la convergenza diventa molto lenta o addirittura stagnante. La funzione ReLU converge più velocemente

Funzione ReLU

ReLU classico

ReLU che perde

Riepilogo

La struttura computazionale dei neuroni

La somma ponderata lineare produce valori di attivazione La funzione di attivazione non lineare produce un output

La rete neurale multistrato risolve il problema XOR

percettrone

Funzione di attivazione simbolica della combinazione lineare

L'inseparabilità lineare non converge

Come l'operazione XOR

Soluzione linearmente inseparabile

Il vettore della funzione base non lineare sostituisce l'autovettore originale.

Utilizza più neuroni per formare una rete neurale multistrato

Come sono collegati i neuroni

Come elemento costitutivo di base, i neuroni sono collegati in una rete multistrato attraverso strutture parallele e a cascata.

Connessione parallela

Più neuroni nello stesso strato ricevono lo stesso vettore di funzionalità di input x e producono rispettivamente più output.

Modalità a cascata

Più neuroni collegati in parallelo producono ciascuno output, che vengono passati ai neuroni nello strato successivo come input.

MLP Perceptron multistrato Rete neurale feedforward FNN

Struttura multistrato del percettrone

strato di ingresso

Il numero di unità nel livello di input è la dimensione D del vettore delle caratteristiche di input.

Matrice delle caratteristiche di input N×D

Ogni riga corrisponde a un campione e il numero di righe è il numero di campioni N

Il numero di colonne è la dimensione del vettore di funzionalità D

Strato nascosto

Livello 1

Matrice di input N×D

è la matrice delle caratteristiche originale

Matrice dei coefficienti di peso D×K1

Il coefficiente di peso di ciascun neurone corrisponde a un vettore colonna D-dimensionale

Un totale di neuroni K1 forma una matrice D×K1.

Vettore di polarizzazione N×K1

Ogni riga corrisponde a una distorsione del campione, per un totale di N righe

Il numero di colonne è il numero di neuroni K1

Matrice di uscita N×K1

Z=φ(A)=φ(XW W0)

Livello 2

Matrice di input N×K1

Matrice di output dello strato superiore

Matrice dei coefficienti di peso K1×K2

Il coefficiente di peso di ciascun neurone corrisponde a un vettore colonna di dimensione K1

Un totale di neuroni K2 forma una matrice di K1×K2

Vettore di polarizzazione N×K2

Ogni riga corrisponde a una distorsione del campione, per un totale di N righe

Il numero di colonne è il numero di neuroni K2

Matrice di uscita N×K2

Z=φ(A)=φ(XW W0)

ennesimo strato

Matrice di input N×K(m-1)

Matrice di output dello strato superiore

Matrice dei coefficienti di peso K(m-1)×Km

Il coefficiente di peso di ciascun neurone corrisponde a un vettore colonna K(m-1)-dimensionale

Un totale di neuroni Km forma una matrice di K(m-1)×Km

Vettore di polarizzazione N×Km

Ogni riga corrisponde a una distorsione del campione, per un totale di N righe

Il numero di colonne è il numero di neuroni Km

Matrice di output N×Km

Z=φ(A)=φ(XW W0)

strato di uscita

Matrice di input N×K(L-1)

Matrice di output dello strato superiore

Matrice dei coefficienti di peso K(L-1)×KL

Il coefficiente di peso di ciascun neurone corrisponde a un vettore colonna K(L-1)-dimensionale

Un totale di neuroni KL forma una matrice di K(L-1)×KL

Vettore di polarizzazione N×KL

Ogni riga corrisponde a una distorsione del campione, per un totale di N righe

Il numero di colonne è il numero di neuroni KL

Matrice di uscita N×KL

Z=φ(A)=φ(XW W0)

La relazione operativa del percettrone multistrato Struttura del programma

accedere

L'output del neurone j-esimo nello strato m-esimo

somma ponderata

L'output del livello superiore viene utilizzato come input di questo livello

funzione di attivazione

produzione

Rappresentazione dell'output della rete neurale

Nota

Il numero di neuroni nello strato di output indica che la rete neurale può avere più funzioni di output contemporaneamente.

problema di regressione

L'output del neurone dello strato di output è l'output della funzione di regressione.

Due categorie

Il neurone dello strato di output emette la probabilità a posteriori del tipo positivo e la funzione sigmoide rappresenta la probabilità a posteriori del tipo.

Categorie multiple

Ogni neurone nello strato di output restituisce la probabilità a posteriori di ciascun tipo e la funzione Softmax rappresenta la probabilità di ciascun tipo.

Mappatura non lineare della rete neurale

La differenza dalla regressione con funzione di base

Determinazione dei parametri

Le funzioni di base per la regressione della funzione di base sono predeterminate

I parametri funzionali di base della rete neurale fanno parte dei parametri del sistema e devono essere determinati durante l'addestramento.

relazione non lineare

La regressione della funzione base ha solo una relazione non lineare tra il vettore di input e l'output.

Il vettore di input e il coefficiente di peso della rete neurale hanno una relazione non lineare con l'output

Esempio

Rete neurale a due strati

rete neurale a tre strati

Teorema di approssimazione della rete neurale

L'essenza della rete neurale

Mappatura dallo spazio euclideo D-dimensionale allo spazio euclideo K-dimensionale

Il vettore della feature di input x è un vettore D-dimensionale

L'output y è un vettore K-dimensionale

contenuto

Un MLP che necessita solo di uno strato di unità nascoste può approssimare una funzione continua definita in un intervallo finito con precisione arbitraria.

Funzioni obiettivo e ottimizzazione delle reti neurali

Funzione obiettivo della rete neurale

generalmente

Situazioni di output di regressione multipla

errore somma dei quadrati

Situazioni di output di classificazione binaria multipla

entropia incrociata

Situazione di output della classificazione K singola

entropia incrociata

La derivata della funzione di perdita del campione rispetto all'attivazione dell'uscita

Ottimizzazione delle reti neurali

funzione di perdita

Funzioni non convesse altamente non lineari

La soluzione per minimizzare la funzione di perdita è soddisfatta

La matrice di Hansen H soddisfa la definizione positiva

Coefficiente di peso della rete neurale

Dimensioni

Simmetria dello spazio dei coefficienti di peso

La relazione input-output rimane invariata quando i neuroni si scambiano di posizione e la rete neurale è equivalente prima e dopo.

Ottimizzazione del coefficiente di peso

algoritmo di gradiente completo

algoritmo del gradiente stocastico

Algoritmo di gradiente stocastico mini-batch

L'algoritmo BP di backpropagation calcola i gradienti o le derivate

Algoritmo BP di propagazione dell'errore all'indietro Calcolare il gradiente del coefficiente di peso della funzione di perdita

Pensiero

regola della catena dei derivati

La derivata della funzione di perdita rispetto all'attivazione dell'output è l'errore dell'output di regressione all'etichetta

La derivata del coefficiente del peso di attivazione è il vettore di input

Gradiente della funzione di perdita o derivata del coefficiente di peso

propagazione all'indietro dell'errore

Manca l'errore nello strato nascosto e l'impatto dell'errore deve essere propagato dallo strato di output alla direzione di input.

Derivazione dell'algoritmo di backpropagation

propagazione in avanti

valore iniziale

Strato nascosto

strato di uscita

Gradiente del livello di output

Errore del livello di output

componente gradiente

Backpropagation dello strato nascosto

Decomposizione della catena del gradiente dello strato nascosto

Derivazione della formula

Pensiero algoritmico

propagazione in avanti

L'output del neurone z dello strato precedente viene pesato e sommato per ottenere l'attivazione del neurone a dello strato successivo.

Propagazione all'indietro

L'errore di propagazione di quest'ultimo strato (strato vicino all'uscita) δ(l 1) viene retropropagato allo strato precedente per ottenere l'errore di propagazione δ(l) dello strato precedente, che viene retropropagato al primo strato nascosto livello (il più vicino al livello nascosto di input)

processo dell'algoritmo (Iterazione in un unico passaggio del coefficiente di peso)

valore iniziale

propagazione in avanti

Strato nascosto

strato di uscita

Propagazione all'indietro

strato di uscita

Strato nascosto

componente gradiente

Algoritmo di gradiente stocastico mini-batch

Forma vettoriale dell'algoritmo di backpropagation

valore iniziale

propagazione in avanti

Coefficiente di peso aumentato per l'attivazione del neurone j-esimo nello strato l

La matrice dei coefficienti di peso dell'lesimo strato

somma ponderata e attivazione

Vettore dell'errore di propagazione del livello di output

Propagazione all'indietro

propagazione all'indietro dell'errore

componente gradiente

Il gradiente della matrice del vettore dei pesi dell'lesimo strato

Il gradiente del vettore di polarizzazione dell'lesimo strato

Il gradiente del coefficiente di peso di un neurone nello strato l

Un'estensione dell'algoritmo di backpropagation

Matrice Jacobiana della rete

Scomposizione della matrice Jacobiana

Equazione della propagazione all'indietro dell'errore

problema di regressione

Due problemi di classificazione

Problema della multiclassificazione

Matrice Hansen per le reti

Alcuni problemi nell'apprendimento delle reti neurali

questione fondamentale

Funzione obiettivo e calcolo del gradiente

inizializzazione

Inizializzazione del coefficiente di peso

I numeri di input e output sono rispettivamente m e n.

Inizializzazione di Saverio

Inizializzazione del coefficiente di peso quando la funzione di attivazione è la funzione ReLU

Normalizzazione del vettore di input

Normalizzazione dell'unità, rappresentata in uno spazio unificato

Regolarizzazione

Funzione di perdita regolarizzata per decadimento ponderale

aggiornamento iterativo

Diversi tipi di tecniche di regolarizzazione equivalenti

set di campioni aumentato

Ruotare e traslare un campione nel campione impostato a diversi piccoli angoli per formare un nuovo campione

Iniettare rumore nel vettore di input

Aggiungi rumore casuale a bassa potenza ai campioni di input per l'addestramento del contraddittorio

tecnica di arresto anticipato

Rilevare il punto di svolta dell'errore di verifica Interrompere l'iterazione quando l'errore di verifica inizia ad aumentare per evitare l'overfitting.