Anmeldung
Anmelden

Mindmap-Galerie Die Grundlage neuronaler Netze und Deep Learning

Die Grundlage neuronaler Netze und Deep Learning

Es fasst die grundlegendsten neuronalen Netzwerkstrukturen zusammen – mehrschichtiges Perzeptron MLP und Feedforward-Netzwerk FNN. Auf dieser Grundlage werden die Zielfunktion und die Optimierungstechnologie des neuronalen Netzwerks zusammengefasst Gewichtskoeffizient sowie Hilfstechnologien zur Optimierung neuronaler Netze wie Initialisierung, Regularisierung usw.

Bearbeitet um 2023-02-23 17:40:31

tyyii7sc@bccto.c

Aktuelle Werke Weitere Werke anzeigen>>

Die Grundlage neuronaler Netze und Deep Learning

tyyii7sc@bccto.c

Aktuelle Werke Weitere Werke anzeigen>>

Für Sie empfohlen
Gliederung

Neuronale Netze und wiederkehrende Deep-Learning-Neuronale Netze
- 16
tyyii7sc@bccto.c
Neuronale Netze und Deep Learning Convolutional Neural Networks
- 23
tyyii7sc@bccto.c
Handschriftliche Ziffernerkennung basierend auf einem verbesserten Sigmoid-Faltungs-Neuronalen Netzwerk
- 13
tyyii7sc@bccto.c
Faltungs-Neuronale Netze mit dynamischer Regularisierung
- 8
tyyii7sc@bccto.c
traditionelles neuronales Netzwerk
- 9
tyyii7sc@bccto.c
Neuronale Netze
- 8
tyyii7sc@bccto.c
Computer-Data-Mining-Kurs
- 6
tyyii7sc@bccto.c
Aufmerksamkeit ist alles, was Sie brauchen
- 9
Deu-Martina
Ensemble-Lernen
- 13
Deu-Martina
hierarchische Clusterbildung
- 11
Deu-Martina

Neuronale Netze und Deep Learning Base

Grundstruktur eines neuronalen Netzwerks

Neuronenstruktur

gewichtete Summe

Reizsignal

synaptisch/gewichtet

Aktivierungswert

Aktivierungsfunktion

diskontinuierliche Funktion

symbolische Funktion

Perzeptron

Schwellenfunktion

McCulloch-Pitts-Neuronen

stetig differenzierbare Funktion

Logistische Sigmoidfunktion

Hyperbolische Tangensfunktion tanh()

Mangel

Wenn der Aktivierungswert a groß ist, tritt die Funktion in den Sättigungsbereich ein und die entsprechende Ableitung liegt nahe bei 0. Beim Lernalgorithmus durch Gradienten wird die Konvergenz sehr langsam oder stagniert sogar. Die ReLU-Funktion konvergiert schneller

ReLU-Funktion

Klassisches ReLU

Undichte ReLU

Zusammenfassung

Die Rechenstruktur von Neuronen

Die lineare gewichtete Summierung erzeugt Aktivierungswerte. Die nichtlineare Aktivierungsfunktion erzeugt eine Ausgabe

Ein mehrschichtiges neuronales Netzwerk löst das XOR-Problem

Perzeptron

Symbolische Aktivierungsfunktion der linearen Kombination

Lineare Untrennbarkeit konvergiert nicht

Wie zum Beispiel eine XOR-Operation

Linear untrennbare Lösung

Der nichtlineare Basisfunktionsvektor ersetzt den ursprünglichen Eigenvektor.

Verwenden Sie mehrere Neuronen, um ein mehrschichtiges neuronales Netzwerk zu bilden

Wie Neuronen verbunden sind

Als Grundbaustein werden Neuronen durch Parallel- und Kaskadenstrukturen zu einem mehrschichtigen Netzwerk verbunden.

Parallele Verbindung

Mehrere Neuronen in derselben Schicht empfangen denselben Eingabemerkmalsvektor x und erzeugen jeweils mehrere Ausgaben.

Kaskadenmodus

Mehrere parallel geschaltete Neuronen erzeugen jeweils Ausgaben, die als Eingabe an die Neuronen in der nächsten Schicht weitergeleitet werden.

Mehrschichtiges Perzeptron MLP Feedforward-Neuronales Netzwerk FNN

Mehrschichtige Perzeptronstruktur

Eingabeschicht

Die Anzahl der Einheiten in der Eingabeebene ist die Dimension D des Eingabemerkmalsvektors.

Eingabe-Feature-Matrix N×D

Jede Zeile entspricht einer Stichprobe, und die Anzahl der Zeilen entspricht der Anzahl der Stichproben N

Die Anzahl der Spalten ist die Merkmalsvektordimension D

Verborgene Ebene

Stufe 1

Eingabematrix N×D

ist die ursprüngliche Merkmalsmatrix

Gewichtskoeffizientenmatrix D×K1

Der Gewichtskoeffizient jedes Neurons entspricht einem D-dimensionalen Spaltenvektor

Insgesamt bilden K1-Neuronen eine D×K1-Matrix.

Bias-Vektor N×K1

Jede Zeile entspricht einer Stichprobenvorspannung, also insgesamt N Zeilen

Die Anzahl der Spalten ist die Anzahl der Neuronen K1

Ausgabematrix N×K1

Z=φ(A)=φ(XW W0)

Rang 2

Eingabematrix N×K1

Ausgabematrix der oberen Ebene

Gewichtskoeffizientenmatrix K1×K2

Der Gewichtskoeffizient jedes Neurons entspricht einem K1-dimensionalen Spaltenvektor

Insgesamt bilden K2-Neuronen eine Matrix aus K1×K2

Bias-Vektor N×K2

Jede Zeile entspricht einer Stichprobenvorspannung, also insgesamt N Zeilen

Die Anzahl der Spalten ist die Anzahl der Neuronen K2

Ausgabematrix N×K2

Z=φ(A)=φ(XW W0)

m. Schicht

Eingabematrix N×K(m-1)

Ausgabematrix der oberen Ebene

Gewichtskoeffizientenmatrix K(m-1)×Km

Der Gewichtskoeffizient jedes Neurons entspricht einem K(m-1)-dimensionalen Spaltenvektor

Insgesamt bilden Km Neuronen eine Matrix von K(m-1)×Km

Bias-Vektor N×Km

Jede Zeile entspricht einer Stichprobenvorspannung, also insgesamt N Zeilen

Die Anzahl der Spalten ist die Anzahl der Neuronen km

Ausgabematrix N×Km

Z=φ(A)=φ(XW W0)

Ausgabeschicht

Eingabematrix N×K(L-1)

Ausgabematrix der oberen Ebene

Gewichtskoeffizientenmatrix K(L-1)×KL

Der Gewichtskoeffizient jedes Neurons entspricht einem K(L-1)-dimensionalen Spaltenvektor

Insgesamt bilden KL-Neuronen eine Matrix aus K(L-1)×KL

Bias-Vektor N×KL

Jede Zeile entspricht einer Stichprobenvorspannung, also insgesamt N Zeilen

Die Anzahl der Spalten ist die Anzahl der Neuronen KL

Ausgabematrix N×KL

Z=φ(A)=φ(XW W0)

Die operative Beziehung des mehrschichtigen Perzeptrons Programmstruktur

eingeben

Die Ausgabe des j-ten Neurons in der m-ten Schicht

gewichtete Summe

Die Ausgabe der oberen Schicht wird als Eingabe dieser Schicht verwendet

Aktivierungsfunktion

Ausgabe

Darstellung der Ausgabe eines neuronalen Netzwerks

Notiz

Die Anzahl der Neuronen in der Ausgabeschicht zeigt an, dass das neuronale Netzwerk mehrere Ausgabefunktionen gleichzeitig haben kann.

Regressionsproblem

Die Ausgabe des Neurons der Ausgabeschicht ist die Ausgabe der Regressionsfunktion.

Zwei Kategorien

Das Neuron der Ausgabeschicht gibt die Posterior-Wahrscheinlichkeit des positiven Typs aus, und die Sigmoid-Funktion repräsentiert die Posterior-Wahrscheinlichkeit des Typs.

Mehrere Kategorien

Jedes Neuron in der Ausgabeschicht gibt die hintere Wahrscheinlichkeit jedes Typs aus, und die Softmax-Funktion repräsentiert die Wahrscheinlichkeit jedes Typs.

Nichtlineare Zuordnung eines neuronalen Netzwerks

Der Unterschied zur Basisfunktionsregression

Bestimmung von Parametern

Die Basisfunktionen für die Basisfunktionsregression sind vorgegeben

Die Basisfunktionsparameter des neuronalen Netzwerks sind Teil der Systemparameter und müssen durch Training ermittelt werden.

nichtlineare Beziehung

Bei der Basisfunktionsregression besteht nur eine nichtlineare Beziehung zwischen dem Eingabevektor und der Ausgabe.

Der Eingabevektor und der Gewichtskoeffizient des neuronalen Netzwerks stehen in einer nichtlinearen Beziehung zur Ausgabe

Beispiel

Zweischichtiges neuronales Netzwerk

dreischichtiges neuronales Netzwerk

Approximationssatz des neuronalen Netzwerks

Essenz des neuronalen Netzwerks

Zuordnung vom D-dimensionalen euklidischen Raum zum K-dimensionalen euklidischen Raum

Der Eingabemerkmalsvektor x ist ein D-dimensionaler Vektor

Die Ausgabe y ist ein K-dimensionaler Vektor

Inhalt

Ein MLP, der nur eine Schicht verborgener Einheiten benötigt, kann eine in einem endlichen Intervall definierte kontinuierliche Funktion mit beliebiger Genauigkeit approximieren.

Objektive Funktionen und Optimierung neuronaler Netze

Zielfunktion eines neuronalen Netzwerks

allgemein

Mehrere Regressionsausgabesituationen

Fehlerquadratsumme

Mehrere Ausgabesituationen der binären Klassifizierung

Kreuzentropie

Ausgabesituation der Einzel-K-Klassifizierung

Kreuzentropie

Die Ableitung der Sample-Verlustfunktion in Bezug auf die Ausgabeaktivierung

Optimierung neuronaler Netze

verlustfunktion

Hochgradig nichtlineare, nichtkonvexe Funktionen

Die Lösung zur Minimierung der Verlustfunktion erfüllt

Die Hansen-Matrix H erfüllt die positive Bestimmtheit

Gewichtskoeffizient des neuronalen Netzwerks

Maße

Symmetrie des Gewichtskoeffizientenraums

Die Eingabe-Ausgabe-Beziehung bleibt unverändert, wenn Neuronen ihre Positionen austauschen, und das neuronale Netzwerk ist vorher und nachher gleichwertig.

Optimierung des Gewichtskoeffizienten

Vollgradientenalgorithmus

stochastischer Gradientenalgorithmus

Mini-Batch-Algorithmus mit stochastischem Gradienten

Der Backpropagation-BP-Algorithmus berechnet Gradienten oder Ableitungen

BP-Algorithmus zur Fehlerrückausbreitung Berechnen Sie den Gradienten des Gewichtskoeffizienten der Verlustfunktion

Gedanke

Kettenregel von Derivaten

Die Ableitung der Verlustfunktion zur Ausgabeaktivierung ist der Fehler der Regressionsausgabe zur Beschriftung

Die Ableitung des Aktivierungsgewichtskoeffizienten ist der Eingabevektor

Verlustfunktionsgradient oder Ableitung des Gewichtskoeffizienten

Fehlerrückausbreitung

In der verborgenen Schicht liegt ein Mangel an Fehlern vor, und die Auswirkungen des Fehlers müssen von der Ausgabeschicht in die Eingaberichtung übertragen werden.

Ableitung des Backpropagation-Algorithmus

Vorwärtsausbreitung

Ursprünglicher Wert

Verborgene Ebene

Ausgabeschicht

Farbverlauf der Ausgabeebene

Fehler auf der Ausgabeebene

Gradientenkomponente

Backpropagation versteckter Schichten

Zerlegung der Verlaufskette versteckter Ebenen

Formelableitung

Algorithmisches Denken

Vorwärtsausbreitung

Der Neuronenausgang z der vorherigen Schicht wird gewichtet und summiert, um die Neuronenaktivierung a der nächsten Schicht zu erhalten.

Backpropagation

Der Ausbreitungsfehler δ(l 1) der letzteren Schicht (Schicht nahe der Ausgabe) wird auf die vorherige Schicht zurückpropagiert, um den Ausbreitungsfehler δ(l) der vorherigen Schicht zu erhalten, der auf die erste verborgene Schicht rückpropagiert wird Ebene (am nächsten zur verborgenen Eingabeebene)

Algorithmusprozess (Einstufige Iteration des Gewichtskoeffizienten)

Ursprünglicher Wert

Vorwärtsausbreitung

Verborgene Ebene

Ausgabeschicht

Backpropagation

Ausgabeschicht

Verborgene Ebene

Gradientenkomponente

Mini-Batch-Algorithmus mit stochastischem Gradienten

Vektorform des Backpropagation-Algorithmus

Ursprünglicher Wert

Vorwärtsausbreitung

Erweiterter Gewichtskoeffizient für die Aktivierung des j-ten Neurons in Schicht l

Die Gewichtungskoeffizientenmatrix der l-ten Schicht

gewichtete Summierung und Aktivierung

Ausbreitungsfehlervektor der Ausgabeschicht

Backpropagation

Fehlerrückausbreitung

Gradientenkomponente

Der Gradient der Gewichtsvektormatrix der l-ten Schicht

Der Gradient des Bias-Vektors der l-ten Schicht

Der Gradient des Gewichtskoeffizienten eines Neurons in Schicht l

Eine Erweiterung des Backpropagation-Algorithmus

Jacobi-Matrix des Netzwerks

Zerlegung der Jacobi-Matrix

Gleichung zur Fehlerrückausbreitung

Regressionsproblem

Zwei Klassifizierungsprobleme

Problem der Mehrfachklassifizierung

Hansen-Matrix für Netzwerke

Einige Probleme beim Lernen neuronaler Netze

grundsätzliches Problem

Zielfunktions- und Gradientenberechnung

Initialisierung

Initialisierung des Gewichtskoeffizienten

Die Eingabe- und Ausgabezahlen sind m bzw. n.

Xavier-Initialisierung

Initialisierung des Gewichtungskoeffizienten, wenn die Aktivierungsfunktion eine ReLU-Funktion ist

Normalisierung des Eingabevektors

Einheitennormalisierung, dargestellt in einem einheitlichen Raum

Regulierung

Regularisierte Verlustfunktion zur Gewichtsabnahme

iteratives Update

Verschiedene Arten äquivalenter Regularisierungstechniken

erweitertes Beispielset

Drehen und verschieben Sie eine Probe im Probensatz in verschiedenen kleinen Winkeln, um eine neue Probe zu bilden

Injizieren Sie Rauschen in den Eingabevektor

Fügen Sie den Eingabeproben für gegnerisches Training zufälliges Rauschen mit geringer Leistung hinzu

Technik des frühen Stoppens

Erkennen Sie den Wendepunkt des Verifizierungsfehlers. Stoppen Sie die Iteration, wenn der Verifizierungsfehler zunimmt, um eine Überanpassung zu verhindern.