Anmeldung
Anmelden

Mindmap-Galerie Kapitel 3 Lineares Modell

Kapitel 3 Lineares Modell

Maschinelles Lernen (Xigua Book Edition), stellt die Grundform vor, lineare Regression, Log-Odds-Regression, lineare Diskriminanzanalyse, Lernen mit mehreren Klassifizierungen usw.

Bearbeitet um 2024-04-12 22:37:17

Deu-Martina

Aktuelle Werke Weitere Werke anzeigen>>

Hundert Jahre Einsamkeit Charakter-Beziehungsdiagramm
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Hundert Jahre Einsamkeit Charakter-Beziehungsdiagramm
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement-Prozess-Vorlage
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.

Kapitel 3 Lineares Modell

Deu-Martina

Aktuelle Werke Weitere Werke anzeigen>>

Für Sie empfohlen
Gliederung

„Der Mut, nicht gemocht zu werden“ – Selbstakzeptanz, das Vertrauen anderer, die Beiträge anderer
- 1
Deu-Martina
Histom Blut und Lymphe
- 1
Deu-Martina
Blut (peripheres Blut)
Deu-Martina
Diagnostik Klinische Blutuntersuchung der roten Blutkörperchen
- 8
Deu-Martina
Orale Medizin – Anästhesie und Analgesie
- 8
Deu-Martina
Grundlegende Verstärkerschaltung
- 4
Deu-Martina
Epidemiologie
Deu-Martina
7.3 Kettenregel zusammengesetzter Funktionen und Ableitung impliziter Funktionen
- 14
Deu-Martina
Meister Yinguang spricht über Bewältigungsstrategien im Krankheitsfall
Deu-Martina
Kapitel 2 Die Anpassungsfähigkeit des Gehirns
- 7
Deu-Martina

Kapitel 3 Lineares Modell

(1) Grundform

Ein lineares Modell versucht, eine Funktion zu lernen, die durch eine lineare Kombination von Attributen Vorhersagen trifft. Vorteile: einfache Form, leicht zu modellieren Interpretierbarkeit Die Grundlage nichtlinearer Modelle (Einführung hierarchischer Strukturen oder hochdimensionaler Abbildung)

Grundform

generelle Form

ist ein durch Attribute beschriebenes Beispiel, wobei xi der Wert von x im i-ten Attribut ist

Vektorform

,In

(2) Lineare Regression

Betrachten Sie die Verarbeitung diskreter Typen:

Es besteht eine „Ordnungs“-Beziehung Konvertieren Sie in kontinuierliche Werte

Beziehung „Ordnung“. Wenn ein Attributwert vorhanden ist, wird dieser in einen Dimensionsvektor umgewandelt

Zweck: Erlernen eines linearen Modells, um realwertige Ausgabetoken so genau wie möglich vorherzusagen

Linearität eines einzelnen Attributs

Ziel:

Parameter-/Modellschätzung: Kleinste Quadrate

Minimieren Sie den quadratischen Fehler:

Wenn wir die Ableitungen von w bzw. b nehmen, können wir Folgendes erhalten:

multiple lineare Regression

Multiples lineares Regressionsziel

Methode der kleinsten Quadrate

(3) Logarithmische Wahrscheinlichkeitsregression

Verallgemeinertes lineares Modell:

Zwei Klassifizierungsaufgaben

Nachteile der Einheitsschrittfunktion: Diskontinuität

großes Naturgesetz

Wenn y als Klassen-Posteriori-Wahrscheinlichkeitsschätzung betrachtet wird

, Gradientenabstiegsmethode, Newton-Methode usw. können verwendet werden, um die optimale Lösung zu erhalten.

(6) Problem des Kategorienungleichgewichts

Problembeschreibung: Es besteht ein Problem des Ungleichgewichts zwischen positiven und negativen Proben. Bei vielen Klassifizierungsalgorithmen treten einige Probleme auf, wenn Sie unausgeglichene Stichprobensätze direkt zum Training und Lernen verwenden.

Genauigkeitsparadoxon: Der Datensatz enthält 1000 Datenpunkte, von denen 990 zur Kategorie 0 und die restlichen 10 zur Kategorie 1 gehören. Ist Modell A in der folgenden Tabelle besser als Modell B?

Bei unausgeglichenen Daten führen einige Bewertungsindikatoren (z. B. Genauigkeit) dazu, dass das Modell stark auf Kategorien mit einem größeren Anteil ausgerichtet wird, was dazu führt, dass die Vorhersagefunktion des Modells fehlschlägt. Die AUC (Fläche unter der Kurve) kann bei unausgeglichenen Datensätzen stabil bleiben und Verzerrungen wie das Genauigkeitsparadoxon treten nicht auf.

Definition der Genauigkeit (ACC):

Wenn die Anzahl der Trainingsbeispiele verschiedener Kategorien sehr unterschiedlich ist (vorausgesetzt, die positive Kategorie ist eine kleine Kategorie), ist die „kleine Kategorie“ oft wichtiger

Die Grundidee:

Grundstrategie: erneut skalieren.

Häufige Lernmethoden für Kategorieungleichgewichte: (1) Überabtastung (Oversampling) Zum Beispiel: SMOTE (2) Unterabtastung. Zum Beispiel: EasyEnsemble (3) Schwellenwertverschiebung

Überabtastung: Fügen Sie einige positive Beispiele hinzu, um die Anzahl der positiven und negativen Beispiele nahe beieinander zu halten

Schwellenwertbewegung: Bei Klassifizierungsproblemen können Sie die Klassenbezeichnung der Instanz nicht direkt vorhersagen, sondern den Wahrscheinlichkeitswert vorhersagen und dann einen Schwellenwert angeben, um die Instanz in eine positive Klasse und eine negative Klasse zu unterteilen. Der Schwellenwert wird normalerweise als 0,5 angegeben. Es kann jedoch entsprechend der tatsächlichen Situation bestimmt werden, den Schwellenwert zu verschieben und das Gewicht einer bestimmten Klasse zu erhöhen, um das Klassenungleichgewicht zu beheben.

Unterabtastung: Entfernen Sie einige negative Beispiele, um die Anzahl der positiven und negativen Beispiele nahe beieinander zu halten

Es gibt eine Schwierigkeit: Die genaue Schätzung von m − /m ist oft schwierig!

(5) Lernen in mehreren Kategorien

Die Grundidee des Lernens mit mehreren Klassifizierungen ist die „Split-Methode“. Der Schlüssel liegt darin, wie man Aufgaben mit mehreren Verteilungen aufteilt und mehrere Klassifikatoren integriert.

Split-Strategie: 1. Eins zu eins 2. Eins zu den anderen 3. Viele zu viele

Eins zu eins

geteilte Bühne

Paarung von N Kategorien: N(N-1)/2 Aufgaben mit zwei Kategorien

Lernklassifikatoren für jede Aufgabe mit zwei Kategorien: N(N-1)/2 Zwei-Klassen-Klassifikatoren

Testphase

Neue Proben werden allen Klassifikatoren zur Vorhersage vorgelegt: N(N-1)/2 Klassifizierungsergebnisse

Durch die Abstimmung ergeben sich die endgültigen Klassifizierungsergebnisse: Die am häufigsten vorhergesagte Kategorie ist die endgültige Kategorie

ein Paar übrig

Aufgabenteilung

Als Positivbeispiel wird eine bestimmte Kategorie herangezogen, weitere Gegenbeispiele: N Aufgaben der zweiten Kategorie

Jeder Zwei-Klassen-Aufgabenlernklassifikator: N Zwei-Klassen-Klassifikator

Testphase

Neue Proben werden zur Vorhersage an alle Klassifikatoren übermittelt: N Klassifizierungsergebnisse

Vergleichen Sie die Vorhersagekonfidenz jedes Klassifikators: Die Kategorie mit der höchsten Konfidenz wird als endgültige Kategorie verwendet

Viele-zu-viele: Mehrere Klassen werden als positive Klassen und mehrere Klassen als Anti-Klassen verwendet.

Fehlerkorrektur-Ausgabecode

Flussdiagramm:

Zusammenfassung: (1) Die ECOC-Codierung weist eine gewisse Toleranz und Korrekturfähigkeit für Klassifikatorfehler auf. Je länger der Code ist, desto stärker ist die Fehlerkorrekturfähigkeit. (2) Bei Codes gleicher Länge ist theoretisch die Fehlerkorrekturfähigkeit umso stärker, je größer der Codierungsabstand zwischen zwei beliebigen Kategorien ist.

Vergleich von „one-to-many“ und „many-to-rest“

„Eins-zu-viele“: Trainieren Sie N(N-1)/2-Klassifikatoren, was einen hohen Speicheraufwand und Testzeit erfordert. Für das Training werden nur zwei Kategorien von Beispielen verwendet, und die Trainingszeit ist kurz.

„Many to Rest“: Trainieren Sie N-Klassifikatoren mit geringem Speicheraufwand und geringer Testzeit Alle Trainingsbeispiele werden für das Training verwendet und die Trainingszeit ist lang.

Die Vorhersageleistung hängt von der spezifischen Datenverteilung ab und in den meisten Fällen sind beide ähnlich

(4) Lineare Diskriminanzanalyse

Es handelt sich um einen überwachten Lernalgorithmus, der häufig zur Reduzierung der Dimensionalität von Daten eingesetzt wird. Es wurde 1936 von Ronald Fisher erfunden und wird in einigen Quellen auch Fisher LDA genannt. LDA ist ein klassischer und beliebter Algorithmus in den Bereichen maschinelles Lernen und Data Mining.

LDA kann auch als überwachte Dimensionsreduktionstechnik betrachtet werden

Die Idee von LDA

Die projizierten Punkte ähnlicher Proben liegen möglichst nahe beieinander:

Die Projektionspunkte heterogener Proben liegen möglichst weit entfernt:

Abgeleitet von LDA-Ideen

Ziel maximieren:

Divergenzmatrix innerhalb der Klasse:

Interklassen-Divergenzmatrix:

Verallgemeinerter Rayleigh-Quotient:

Dies ist das Ziel von LDA, dies zu maximieren. machen

Das Äquivalent ist:

Verwenden Sie die Lagrange-Multiplikatormethode:

Verfügbar:

Ergebnis:

Hinweis: Er ist ein lernender Algorithmus

Alternative Funktion: Logarithmische Wahrscheinlichkeitsfunktion (die logarithmische Wahrscheinlichkeitsfunktion wird als „logarithmische Wahrscheinlichkeitsfunktion“ bezeichnet) Vorteile: Monoton differenzierbar, in jeder Reihenfolge differenzierbar

Log-Quoten (Logit) Quoten (Quoten) spiegeln die relative Wahrscheinlichkeit wider, dass eine Stichprobe ein positives Beispiel ist

Vorteile: Die Datenverteilung muss nicht im Voraus übernommen werden (d. h. sie kann für alle Daten verwendet werden). Es kann eine ungefähre Wahrscheinlichkeitsvorhersage der „Kategorie“ erhalten werden Bestehende numerische Optimierungsalgorithmen können direkt angewendet werden, um die optimale Lösung zu erhalten.