Galleria mappe mentale rete neurale completamente connessa
Introduzione dettagliata alla classificazione delle reti neurali completamente connesse. Le reti neurali completamente connesse mettono in cascata molteplici trasformazioni per ottenere la mappatura input-to-output. Sono composte da uno strato di input, uno strato di output e più strati nascosti.
Modificato alle 2023-07-27 22:52:26Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
Microbiologia medica, Infezioni batteriche e immunità riassume e organizza i punti di conoscenza per aiutare gli studenti a comprendere e ricordare. Studia in modo più efficiente!
La teoria cinetica dei gas rivela la natura microscopica dei fenomeni termici macroscopici e le leggi dei gas trovando la relazione tra quantità macroscopiche e quantità microscopiche. Dal punto di vista del movimento molecolare, vengono utilizzati metodi statistici per studiare le proprietà macroscopiche e modificare i modelli di movimento termico delle molecole di gas.
Este é um mapa mental sobre uma breve história do tempo. "Uma Breve História do Tempo" é um trabalho científico popular com influência de longo alcance. Ele não apenas introduz os conceitos básicos da cosmologia e da relatividade, mas também discute os buracos negros e a expansão. Do universo. questões científicas de ponta, como inflação e teoria das cordas.
rete neurale completamente connessa
definizione
Le reti neurali completamente connesse mettono in cascata molteplici trasformazioni per ottenere la mappatura input-output.
Rete completamente connessa a due livelli
Rispetto
classificatore lineare
W può essere considerato un modello e il numero di modelli è determinato dal numero di categorie.
Completamente connesso
W1 può anche essere considerato un modello
W2 combina i risultati corrispondenti di più modelli per ottenere il punteggio finale della categoria
non lineare
composizione
Un livello di input, un livello di output e più livelli nascosti
funzione di attivazione
Funzioni di attivazione comunemente utilizzate
Sigmoide
ReLU
Va bene
ReLU che perde
Progettazione della struttura della rete
Maggiore è il numero di neuroni, più complessa è l'interfaccia e più forte è la capacità di classificazione di questo insieme.
La complessità del modello di rete neurale viene adattata in base alla difficoltà del compito di classificazione. Quanto più difficile è il compito, tanto più profonda e ampia dovrebbe essere la struttura della rete neurale progettata, ma occorre prestare attenzione al fenomeno del sovradattamento.
SOFTMAX e perdita di entropia incrociata
softmax
Normalizza i risultati di output
Convertire i risultati di output in probabilità
perdita di entropia
Utilizzato per misurare la differenza dal valore reale (codice one-hot) - divergenza KL
ottimizzazione
Grafico computazionale
fare un passo
Qualsiasi funzione complessa può essere espressa sotto forma di un grafico computazionale
Nel grafico computazionale, ciascuna unità di gate riceve alcuni input e quindi esegue i calcoli
Il valore di uscita di questa porta
Il gradiente locale del suo valore di output rispetto al valore di input
Utilizzando la regola della catena, l'unità di porta dovrebbe moltiplicare il gradiente restituito per il gradiente locale del suo input per ottenere il gradiente dell'output dell'intera rete per ciascun valore di input dell'unità di porta.
Posti esterni comuni
Porta di addizione
porta di moltiplicazione
porta copia
porta massima
domanda
il gradiente scompare
A causa delle proprietà moltiplicative della regola della catena
esplosione del gradiente
A causa delle proprietà moltiplicative della regola della catena
Soluzione
Utilizzare la funzione di attivazione appropriata
metodo della quantità di moto
Ridurre la dimensione del passo della direzione di oscillazione
vantaggio
Uscire dal punto di sella ad alta dimensione
Uscire dagli ottimi locali e dai punti di sella
metodo del gradiente adattivo
Ridurre la dimensione del passo nella direzione di oscillazione e aumentare la dimensione del passo nella direzione piatta.
Il quadrato dell'ampiezza del gradiente è la direzione dell'oscillazione
Il quadrato dell'ampiezza del gradiente è la direzione piatta.
Metodo RMSProp
ADAMO
Una combinazione del metodo dello slancio e del metodo del gradiente adattivo, ma deve essere corretto per evitare di essere troppo lento durante l'avvio a freddo.
Riassumere
Il metodo Momentum SGD è il migliore, ma richiede una regolazione manuale
ADAM è facile da usare, ma difficile da ottimizzare
Inizializzazione del peso
inizializzazione tutto zero
non molto bene
inizializzazione casuale
Utilizza la distribuzione gaussiana
C'è un'alta probabilità che il gradiente scomparirà e il flusso di informazioni scomparirà.
Inizializzazione di Saverio
La varianza dei valori di attivazione dei neuroni in ciascuno strato è sostanzialmente la stessa.
riepilogo
Un buon metodo di inizializzazione può impedire la scomparsa delle informazioni durante la propagazione diretta e può anche risolvere il problema della scomparsa del gradiente durante la propagazione inversa.
Quando si seleziona la tangente iperbolica o il Sigmoide come funzione di attivazione, si consiglia di utilizzare il metodo di inizializzazione Xaizer
Quando si seleziona ReLU o Leakly ReLU come funzione di attivazione, si consiglia di utilizzare il metodo di inizializzazione He.
normalizzazione batch
chiamato strato BN
metodo
Regolare la distribuzione del peso in modo che l'input e l'output abbiano la stessa distribuzione
Regola l'output y dopo l'addestramento in batch: sottrai la media per rimuovere la varianza
Tra questi, la media e la varianza della distribuzione dei dati devono essere determinate in modo indipendente in base al contributo alla classificazione.
beneficio
Risolvi il problema della scomparsa del segnale e della scomparsa del gradiente durante il passaggio in avanti
Overfitting e underfitting
adattamento eccessivo
Quando l'abilità del modello diminuisce nel set di addestramento e inizia ad aumentare nel set di validazione, inizia ad adattarsi eccessivamente.
Durante l'apprendimento, il modello selezionato contiene troppi parametri, con conseguenti buone previsioni per i dati noti ma scarse previsioni per i dati sconosciuti.
Di solito vengono memorizzati i dati di addestramento anziché le funzionalità dei dati apprese.
soluzione
Ottieni più dati di allenamento
Regolamentare il modello per consentire l'informazione o per vincolarla - regolarizzazione
Regola le dimensioni del modello
Vincolare i pesi del modello, regolarizzazione del peso
Disattivazione casuale (dropout)
Lascia che i neuroni dello strato nascosto non vengano attivati con una certa probabilità
compiere
Durante il processo di addestramento, utilizzare il dropout su un determinato livello significa scartare in modo casuale alcuni output del livello. Questi neuroni scartati sembrano essere eliminati dalla rete.
rapporto di perdita casuale
è la proporzione di funzionalità impostata su 0, solitamente nell'intervallo 0,2-0,5
Può essere considerato un modello di integrazione di più piccole reti.
Sottodimensionamento
La capacità di descrizione del modello è troppo debole per apprendere bene i modelli nei dati.
Di solito il modello è troppo semplice
Ottimizzazione degli iperparametri
tasso di apprendimento
è troppo grande
Impossibile convergere
Troppo grande
Oscilla vicino al valore minimo e non riesce a raggiungere il valore ottimale.
troppo piccolo
Tempo di convergenza lungo
Moderare
Convergenza rapida e buoni risultati
ottimizzazione
metodo di ricerca della griglia
Ogni iperparametro assume diversi valori e questi iperparametri vengono combinati per formare più set di iperparametri.
Valuta le prestazioni del modello per ogni set di iperparametri sul validatore
Seleziona l'insieme di valori utilizzati dal modello con le migliori prestazioni come valori dell'iperparametro finale.
Metodo di ricerca casuale
Seleziona casualmente i punti nello spazio dei parametri, ogni punto corrisponde a un insieme di iperparametri
Valutare le prestazioni del modello per ogni set di iperparametri nel set di convalida
Seleziona l'insieme di valori utilizzati dal modello con le migliori prestazioni come valori finali dell'iperparametro.
Generalmente, il campionamento casuale viene eseguito nello spazio log.