Mindmap-Galerie Die Grundlage neuronaler Netze und Deep Learning
Es fasst die grundlegendsten neuronalen Netzwerkstrukturen zusammen – mehrschichtiges Perzeptron MLP und Feedforward-Netzwerk FNN. Auf dieser Grundlage werden die Zielfunktion und die Optimierungstechnologie des neuronalen Netzwerks zusammengefasst Gewichtskoeffizient sowie Hilfstechnologien zur Optimierung neuronaler Netze wie Initialisierung, Regularisierung usw.
Bearbeitet um 2023-02-23 17:40:31Welche Preismethoden gibt es für Projektunteraufträge im Rahmen des EPC-Generalvertragsmodells? EPC (Engineering, Procurement, Construction) bedeutet, dass der Generalunternehmer für den gesamten Prozess der Planung, Beschaffung, Konstruktion und Installation des Projekts verantwortlich ist und für die Testbetriebsdienste verantwortlich ist.
Die Wissenspunkte, die Java-Ingenieure in jeder Phase beherrschen müssen, werden ausführlich vorgestellt und das Wissen ist umfassend. Ich hoffe, es kann für alle hilfreich sein.
Das Software-Anforderungs-Engineering ist ein Schlüsselkapitel für Systemanalytiker. Zu den Kapiteln „Anforderungserhebung“ und „Anforderungsanalyse“ gehören häufig Veröffentlichungen.
Welche Preismethoden gibt es für Projektunteraufträge im Rahmen des EPC-Generalvertragsmodells? EPC (Engineering, Procurement, Construction) bedeutet, dass der Generalunternehmer für den gesamten Prozess der Planung, Beschaffung, Konstruktion und Installation des Projekts verantwortlich ist und für die Testbetriebsdienste verantwortlich ist.
Die Wissenspunkte, die Java-Ingenieure in jeder Phase beherrschen müssen, werden ausführlich vorgestellt und das Wissen ist umfassend. Ich hoffe, es kann für alle hilfreich sein.
Das Software-Anforderungs-Engineering ist ein Schlüsselkapitel für Systemanalytiker. Zu den Kapiteln „Anforderungserhebung“ und „Anforderungsanalyse“ gehören häufig Veröffentlichungen.
Neuronale Netze und Deep Learning Base
Grundstruktur eines neuronalen Netzwerks
Neuronenstruktur
gewichtete Summe
Reizsignal
synaptisch/gewichtet
Aktivierungswert
Aktivierungsfunktion
diskontinuierliche Funktion
symbolische Funktion
Perzeptron
Schwellenfunktion
McCulloch-Pitts-Neuronen
stetig differenzierbare Funktion
Logistische Sigmoidfunktion
Hyperbolische Tangensfunktion tanh()
Mangel
Wenn der Aktivierungswert a groß ist, tritt die Funktion in den Sättigungsbereich ein und die entsprechende Ableitung liegt nahe bei 0. Beim Lernalgorithmus durch Gradienten wird die Konvergenz sehr langsam oder stagniert sogar. Die ReLU-Funktion konvergiert schneller
ReLU-Funktion
Klassisches ReLU
Undichte ReLU
Zusammenfassung
Die Rechenstruktur von Neuronen
Die lineare gewichtete Summierung erzeugt Aktivierungswerte. Die nichtlineare Aktivierungsfunktion erzeugt eine Ausgabe
Ein mehrschichtiges neuronales Netzwerk löst das XOR-Problem
Perzeptron
Symbolische Aktivierungsfunktion der linearen Kombination
Lineare Untrennbarkeit konvergiert nicht
Wie zum Beispiel eine XOR-Operation
Linear untrennbare Lösung
Der nichtlineare Basisfunktionsvektor ersetzt den ursprünglichen Eigenvektor.
Verwenden Sie mehrere Neuronen, um ein mehrschichtiges neuronales Netzwerk zu bilden
Wie Neuronen verbunden sind
Als Grundbaustein werden Neuronen durch Parallel- und Kaskadenstrukturen zu einem mehrschichtigen Netzwerk verbunden.
Parallele Verbindung
Mehrere Neuronen in derselben Schicht empfangen denselben Eingabemerkmalsvektor x und erzeugen jeweils mehrere Ausgaben.
Kaskadenmodus
Mehrere parallel geschaltete Neuronen erzeugen jeweils Ausgaben, die als Eingabe an die Neuronen in der nächsten Schicht weitergeleitet werden.
Mehrschichtiges Perzeptron MLP Feedforward-Neuronales Netzwerk FNN
Mehrschichtige Perzeptronstruktur
Eingabeschicht
Die Anzahl der Einheiten in der Eingabeebene ist die Dimension D des Eingabemerkmalsvektors.
Eingabe-Feature-Matrix N×D
Jede Zeile entspricht einer Stichprobe, und die Anzahl der Zeilen entspricht der Anzahl der Stichproben N
Die Anzahl der Spalten ist die Merkmalsvektordimension D
Verborgene Ebene
Stufe 1
Eingabematrix N×D
ist die ursprüngliche Merkmalsmatrix
Gewichtskoeffizientenmatrix D×K1
Der Gewichtskoeffizient jedes Neurons entspricht einem D-dimensionalen Spaltenvektor
Insgesamt bilden K1-Neuronen eine D×K1-Matrix.
Bias-Vektor N×K1
Jede Zeile entspricht einer Stichprobenvorspannung, also insgesamt N Zeilen
Die Anzahl der Spalten ist die Anzahl der Neuronen K1
Ausgabematrix N×K1
Z=φ(A)=φ(XW W0)
Rang 2
Eingabematrix N×K1
Ausgabematrix der oberen Ebene
Gewichtskoeffizientenmatrix K1×K2
Der Gewichtskoeffizient jedes Neurons entspricht einem K1-dimensionalen Spaltenvektor
Insgesamt bilden K2-Neuronen eine Matrix aus K1×K2
Bias-Vektor N×K2
Jede Zeile entspricht einer Stichprobenvorspannung, also insgesamt N Zeilen
Die Anzahl der Spalten ist die Anzahl der Neuronen K2
Ausgabematrix N×K2
Z=φ(A)=φ(XW W0)
m. Schicht
Eingabematrix N×K(m-1)
Ausgabematrix der oberen Ebene
Gewichtskoeffizientenmatrix K(m-1)×Km
Der Gewichtskoeffizient jedes Neurons entspricht einem K(m-1)-dimensionalen Spaltenvektor
Insgesamt bilden Km Neuronen eine Matrix von K(m-1)×Km
Bias-Vektor N×Km
Jede Zeile entspricht einer Stichprobenvorspannung, also insgesamt N Zeilen
Die Anzahl der Spalten ist die Anzahl der Neuronen km
Ausgabematrix N×Km
Z=φ(A)=φ(XW W0)
Ausgabeschicht
Eingabematrix N×K(L-1)
Ausgabematrix der oberen Ebene
Gewichtskoeffizientenmatrix K(L-1)×KL
Der Gewichtskoeffizient jedes Neurons entspricht einem K(L-1)-dimensionalen Spaltenvektor
Insgesamt bilden KL-Neuronen eine Matrix aus K(L-1)×KL
Bias-Vektor N×KL
Jede Zeile entspricht einer Stichprobenvorspannung, also insgesamt N Zeilen
Die Anzahl der Spalten ist die Anzahl der Neuronen KL
Ausgabematrix N×KL
Z=φ(A)=φ(XW W0)
Die operative Beziehung des mehrschichtigen Perzeptrons Programmstruktur
eingeben
Die Ausgabe des j-ten Neurons in der m-ten Schicht
gewichtete Summe
Die Ausgabe der oberen Schicht wird als Eingabe dieser Schicht verwendet
Aktivierungsfunktion
Ausgabe
Darstellung der Ausgabe eines neuronalen Netzwerks
Notiz
Die Anzahl der Neuronen in der Ausgabeschicht zeigt an, dass das neuronale Netzwerk mehrere Ausgabefunktionen gleichzeitig haben kann.
Regressionsproblem
Die Ausgabe des Neurons der Ausgabeschicht ist die Ausgabe der Regressionsfunktion.
Zwei Kategorien
Das Neuron der Ausgabeschicht gibt die Posterior-Wahrscheinlichkeit des positiven Typs aus, und die Sigmoid-Funktion repräsentiert die Posterior-Wahrscheinlichkeit des Typs.
Mehrere Kategorien
Jedes Neuron in der Ausgabeschicht gibt die hintere Wahrscheinlichkeit jedes Typs aus, und die Softmax-Funktion repräsentiert die Wahrscheinlichkeit jedes Typs.
Nichtlineare Zuordnung eines neuronalen Netzwerks
Der Unterschied zur Basisfunktionsregression
Bestimmung von Parametern
Die Basisfunktionen für die Basisfunktionsregression sind vorgegeben
Die Basisfunktionsparameter des neuronalen Netzwerks sind Teil der Systemparameter und müssen durch Training ermittelt werden.
nichtlineare Beziehung
Bei der Basisfunktionsregression besteht nur eine nichtlineare Beziehung zwischen dem Eingabevektor und der Ausgabe.
Der Eingabevektor und der Gewichtskoeffizient des neuronalen Netzwerks stehen in einer nichtlinearen Beziehung zur Ausgabe
Beispiel
Zweischichtiges neuronales Netzwerk
dreischichtiges neuronales Netzwerk
Approximationssatz des neuronalen Netzwerks
Essenz des neuronalen Netzwerks
Zuordnung vom D-dimensionalen euklidischen Raum zum K-dimensionalen euklidischen Raum
Der Eingabemerkmalsvektor x ist ein D-dimensionaler Vektor
Die Ausgabe y ist ein K-dimensionaler Vektor
Inhalt
Ein MLP, der nur eine Schicht verborgener Einheiten benötigt, kann eine in einem endlichen Intervall definierte kontinuierliche Funktion mit beliebiger Genauigkeit approximieren.
Objektive Funktionen und Optimierung neuronaler Netze
Zielfunktion eines neuronalen Netzwerks
allgemein
Mehrere Regressionsausgabesituationen
Fehlerquadratsumme
Mehrere Ausgabesituationen der binären Klassifizierung
Kreuzentropie
Ausgabesituation der Einzel-K-Klassifizierung
Kreuzentropie
Die Ableitung der Sample-Verlustfunktion in Bezug auf die Ausgabeaktivierung
Optimierung neuronaler Netze
verlustfunktion
Hochgradig nichtlineare, nichtkonvexe Funktionen
Die Lösung zur Minimierung der Verlustfunktion erfüllt
Die Hansen-Matrix H erfüllt die positive Bestimmtheit
Gewichtskoeffizient des neuronalen Netzwerks
Maße
Symmetrie des Gewichtskoeffizientenraums
Die Eingabe-Ausgabe-Beziehung bleibt unverändert, wenn Neuronen ihre Positionen austauschen, und das neuronale Netzwerk ist vorher und nachher gleichwertig.
Optimierung des Gewichtskoeffizienten
Vollgradientenalgorithmus
stochastischer Gradientenalgorithmus
Mini-Batch-Algorithmus mit stochastischem Gradienten
Der Backpropagation-BP-Algorithmus berechnet Gradienten oder Ableitungen
BP-Algorithmus zur Fehlerrückausbreitung Berechnen Sie den Gradienten des Gewichtskoeffizienten der Verlustfunktion
Gedanke
Kettenregel von Derivaten
Die Ableitung der Verlustfunktion zur Ausgabeaktivierung ist der Fehler der Regressionsausgabe zur Beschriftung
Die Ableitung des Aktivierungsgewichtskoeffizienten ist der Eingabevektor
Verlustfunktionsgradient oder Ableitung des Gewichtskoeffizienten
Fehlerrückausbreitung
In der verborgenen Schicht liegt ein Mangel an Fehlern vor, und die Auswirkungen des Fehlers müssen von der Ausgabeschicht in die Eingaberichtung übertragen werden.
Ableitung des Backpropagation-Algorithmus
Vorwärtsausbreitung
Ursprünglicher Wert
Verborgene Ebene
Ausgabeschicht
Farbverlauf der Ausgabeebene
Fehler auf der Ausgabeebene
Gradientenkomponente
Backpropagation versteckter Schichten
Zerlegung der Verlaufskette versteckter Ebenen
Formelableitung
Algorithmisches Denken
Vorwärtsausbreitung
Der Neuronenausgang z der vorherigen Schicht wird gewichtet und summiert, um die Neuronenaktivierung a der nächsten Schicht zu erhalten.
Backpropagation
Der Ausbreitungsfehler δ(l 1) der letzteren Schicht (Schicht nahe der Ausgabe) wird auf die vorherige Schicht zurückpropagiert, um den Ausbreitungsfehler δ(l) der vorherigen Schicht zu erhalten, der auf die erste verborgene Schicht rückpropagiert wird Ebene (am nächsten zur verborgenen Eingabeebene)
Algorithmusprozess (Einstufige Iteration des Gewichtskoeffizienten)
Ursprünglicher Wert
Vorwärtsausbreitung
Verborgene Ebene
Ausgabeschicht
Backpropagation
Ausgabeschicht
Verborgene Ebene
Gradientenkomponente
Mini-Batch-Algorithmus mit stochastischem Gradienten
Vektorform des Backpropagation-Algorithmus
Ursprünglicher Wert
Vorwärtsausbreitung
Erweiterter Gewichtskoeffizient für die Aktivierung des j-ten Neurons in Schicht l
Die Gewichtungskoeffizientenmatrix der l-ten Schicht
gewichtete Summierung und Aktivierung
Ausbreitungsfehlervektor der Ausgabeschicht
Backpropagation
Fehlerrückausbreitung
Gradientenkomponente
Der Gradient der Gewichtsvektormatrix der l-ten Schicht
Der Gradient des Bias-Vektors der l-ten Schicht
Der Gradient des Gewichtskoeffizienten eines Neurons in Schicht l
Eine Erweiterung des Backpropagation-Algorithmus
Jacobi-Matrix des Netzwerks
Zerlegung der Jacobi-Matrix
Gleichung zur Fehlerrückausbreitung
Regressionsproblem
Zwei Klassifizierungsprobleme
Problem der Mehrfachklassifizierung
Hansen-Matrix für Netzwerke
Einige Probleme beim Lernen neuronaler Netze
grundsätzliches Problem
Zielfunktions- und Gradientenberechnung
Initialisierung
Initialisierung des Gewichtskoeffizienten
Die Eingabe- und Ausgabezahlen sind m bzw. n.
Xavier-Initialisierung
Initialisierung des Gewichtungskoeffizienten, wenn die Aktivierungsfunktion eine ReLU-Funktion ist
Normalisierung des Eingabevektors
Einheitennormalisierung, dargestellt in einem einheitlichen Raum
Regulierung
Regularisierte Verlustfunktion zur Gewichtsabnahme
iteratives Update
Verschiedene Arten äquivalenter Regularisierungstechniken
erweitertes Beispielset
Drehen und verschieben Sie eine Probe im Probensatz in verschiedenen kleinen Winkeln, um eine neue Probe zu bilden
Injizieren Sie Rauschen in den Eingabevektor
Fügen Sie den Eingabeproben für gegnerisches Training zufälliges Rauschen mit geringer Leistung hinzu
Technik des frühen Stoppens
Erkennen Sie den Wendepunkt des Verifizierungsfehlers. Stoppen Sie die Iteration, wenn der Verifizierungsfehler zunimmt, um eine Überanpassung zu verhindern.