Mindmap-Galerie Kapitel 3 Lineares Modell
Maschinelles Lernen (Xigua Book Edition), stellt die Grundform vor, lineare Regression, Log-Odds-Regression, lineare Diskriminanzanalyse, Lernen mit mehreren Klassifizierungen usw.
Bearbeitet um 2024-04-12 22:37:17Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Kapitel 3 Lineares Modell
(1) Grundform
Ein lineares Modell versucht, eine Funktion zu lernen, die durch eine lineare Kombination von Attributen Vorhersagen trifft. Vorteile: einfache Form, leicht zu modellieren Interpretierbarkeit Die Grundlage nichtlinearer Modelle (Einführung hierarchischer Strukturen oder hochdimensionaler Abbildung)
Grundform
generelle Form
ist ein durch Attribute beschriebenes Beispiel, wobei xi der Wert von x im i-ten Attribut ist
Vektorform
,In
(2) Lineare Regression
Betrachten Sie die Verarbeitung diskreter Typen:
Es besteht eine „Ordnungs“-Beziehung Konvertieren Sie in kontinuierliche Werte
Beziehung „Ordnung“. Wenn ein Attributwert vorhanden ist, wird dieser in einen Dimensionsvektor umgewandelt
Zweck: Erlernen eines linearen Modells, um realwertige Ausgabetoken so genau wie möglich vorherzusagen
Linearität eines einzelnen Attributs
Ziel:
Parameter-/Modellschätzung: Kleinste Quadrate
Minimieren Sie den quadratischen Fehler:
Wenn wir die Ableitungen von w bzw. b nehmen, können wir Folgendes erhalten:
multiple lineare Regression
Multiples lineares Regressionsziel
Methode der kleinsten Quadrate
(3) Logarithmische Wahrscheinlichkeitsregression
Verallgemeinertes lineares Modell:
Zwei Klassifizierungsaufgaben
Nachteile der Einheitsschrittfunktion: Diskontinuität
großes Naturgesetz
Wenn y als Klassen-Posteriori-Wahrscheinlichkeitsschätzung betrachtet wird
, Gradientenabstiegsmethode, Newton-Methode usw. können verwendet werden, um die optimale Lösung zu erhalten.
(6) Problem des Kategorienungleichgewichts
Problembeschreibung: Es besteht ein Problem des Ungleichgewichts zwischen positiven und negativen Proben. Bei vielen Klassifizierungsalgorithmen treten einige Probleme auf, wenn Sie unausgeglichene Stichprobensätze direkt zum Training und Lernen verwenden.
Genauigkeitsparadoxon: Der Datensatz enthält 1000 Datenpunkte, von denen 990 zur Kategorie 0 und die restlichen 10 zur Kategorie 1 gehören. Ist Modell A in der folgenden Tabelle besser als Modell B?
Bei unausgeglichenen Daten führen einige Bewertungsindikatoren (z. B. Genauigkeit) dazu, dass das Modell stark auf Kategorien mit einem größeren Anteil ausgerichtet wird, was dazu führt, dass die Vorhersagefunktion des Modells fehlschlägt. Die AUC (Fläche unter der Kurve) kann bei unausgeglichenen Datensätzen stabil bleiben und Verzerrungen wie das Genauigkeitsparadoxon treten nicht auf.
Definition der Genauigkeit (ACC):
Wenn die Anzahl der Trainingsbeispiele verschiedener Kategorien sehr unterschiedlich ist (vorausgesetzt, die positive Kategorie ist eine kleine Kategorie), ist die „kleine Kategorie“ oft wichtiger
Die Grundidee:
Grundstrategie: erneut skalieren.
Häufige Lernmethoden für Kategorieungleichgewichte: (1) Überabtastung (Oversampling) Zum Beispiel: SMOTE (2) Unterabtastung. Zum Beispiel: EasyEnsemble (3) Schwellenwertverschiebung
Überabtastung: Fügen Sie einige positive Beispiele hinzu, um die Anzahl der positiven und negativen Beispiele nahe beieinander zu halten
Schwellenwertbewegung: Bei Klassifizierungsproblemen können Sie die Klassenbezeichnung der Instanz nicht direkt vorhersagen, sondern den Wahrscheinlichkeitswert vorhersagen und dann einen Schwellenwert angeben, um die Instanz in eine positive Klasse und eine negative Klasse zu unterteilen. Der Schwellenwert wird normalerweise als 0,5 angegeben. Es kann jedoch entsprechend der tatsächlichen Situation bestimmt werden, den Schwellenwert zu verschieben und das Gewicht einer bestimmten Klasse zu erhöhen, um das Klassenungleichgewicht zu beheben.
Unterabtastung: Entfernen Sie einige negative Beispiele, um die Anzahl der positiven und negativen Beispiele nahe beieinander zu halten
Es gibt eine Schwierigkeit: Die genaue Schätzung von m − /m ist oft schwierig!
(5) Lernen in mehreren Kategorien
Die Grundidee des Lernens mit mehreren Klassifizierungen ist die „Split-Methode“. Der Schlüssel liegt darin, wie man Aufgaben mit mehreren Verteilungen aufteilt und mehrere Klassifikatoren integriert.
Split-Strategie: 1. Eins zu eins 2. Eins zu den anderen 3. Viele zu viele
Eins zu eins
geteilte Bühne
Paarung von N Kategorien: N(N-1)/2 Aufgaben mit zwei Kategorien
Lernklassifikatoren für jede Aufgabe mit zwei Kategorien: N(N-1)/2 Zwei-Klassen-Klassifikatoren
Testphase
Neue Proben werden allen Klassifikatoren zur Vorhersage vorgelegt: N(N-1)/2 Klassifizierungsergebnisse
Durch die Abstimmung ergeben sich die endgültigen Klassifizierungsergebnisse: Die am häufigsten vorhergesagte Kategorie ist die endgültige Kategorie
ein Paar übrig
Aufgabenteilung
Als Positivbeispiel wird eine bestimmte Kategorie herangezogen, weitere Gegenbeispiele: N Aufgaben der zweiten Kategorie
Jeder Zwei-Klassen-Aufgabenlernklassifikator: N Zwei-Klassen-Klassifikator
Testphase
Neue Proben werden zur Vorhersage an alle Klassifikatoren übermittelt: N Klassifizierungsergebnisse
Vergleichen Sie die Vorhersagekonfidenz jedes Klassifikators: Die Kategorie mit der höchsten Konfidenz wird als endgültige Kategorie verwendet
Viele-zu-viele: Mehrere Klassen werden als positive Klassen und mehrere Klassen als Anti-Klassen verwendet.
Fehlerkorrektur-Ausgabecode
Flussdiagramm:
Zusammenfassung: (1) Die ECOC-Codierung weist eine gewisse Toleranz und Korrekturfähigkeit für Klassifikatorfehler auf. Je länger der Code ist, desto stärker ist die Fehlerkorrekturfähigkeit. (2) Bei Codes gleicher Länge ist theoretisch die Fehlerkorrekturfähigkeit umso stärker, je größer der Codierungsabstand zwischen zwei beliebigen Kategorien ist.
Vergleich von „one-to-many“ und „many-to-rest“
„Eins-zu-viele“: Trainieren Sie N(N-1)/2-Klassifikatoren, was einen hohen Speicheraufwand und Testzeit erfordert. Für das Training werden nur zwei Kategorien von Beispielen verwendet, und die Trainingszeit ist kurz.
„Many to Rest“: Trainieren Sie N-Klassifikatoren mit geringem Speicheraufwand und geringer Testzeit Alle Trainingsbeispiele werden für das Training verwendet und die Trainingszeit ist lang.
Die Vorhersageleistung hängt von der spezifischen Datenverteilung ab und in den meisten Fällen sind beide ähnlich
(4) Lineare Diskriminanzanalyse
Es handelt sich um einen überwachten Lernalgorithmus, der häufig zur Reduzierung der Dimensionalität von Daten eingesetzt wird. Es wurde 1936 von Ronald Fisher erfunden und wird in einigen Quellen auch Fisher LDA genannt. LDA ist ein klassischer und beliebter Algorithmus in den Bereichen maschinelles Lernen und Data Mining.
LDA kann auch als überwachte Dimensionsreduktionstechnik betrachtet werden
Die Idee von LDA
Die projizierten Punkte ähnlicher Proben liegen möglichst nahe beieinander:
Die Projektionspunkte heterogener Proben liegen möglichst weit entfernt:
Abgeleitet von LDA-Ideen
Ziel maximieren:
Divergenzmatrix innerhalb der Klasse:
Interklassen-Divergenzmatrix:
Verallgemeinerter Rayleigh-Quotient:
Dies ist das Ziel von LDA, dies zu maximieren. machen
Das Äquivalent ist:
Verwenden Sie die Lagrange-Multiplikatormethode:
Verfügbar:
Ergebnis:
Hinweis: Er ist ein lernender Algorithmus
Alternative Funktion: Logarithmische Wahrscheinlichkeitsfunktion (die logarithmische Wahrscheinlichkeitsfunktion wird als „logarithmische Wahrscheinlichkeitsfunktion“ bezeichnet) Vorteile: Monoton differenzierbar, in jeder Reihenfolge differenzierbar
Log-Quoten (Logit) Quoten (Quoten) spiegeln die relative Wahrscheinlichkeit wider, dass eine Stichprobe ein positives Beispiel ist
Vorteile: Die Datenverteilung muss nicht im Voraus übernommen werden (d. h. sie kann für alle Daten verwendet werden). Es kann eine ungefähre Wahrscheinlichkeitsvorhersage der „Kategorie“ erhalten werden Bestehende numerische Optimierungsalgorithmen können direkt angewendet werden, um die optimale Lösung zu erhalten.