Mindmap-Galerie Certified Financial Analyst CFA Level 2 Quantitatives Methodenwissen
Das Fach „Certified Financial Analyst Level 2“, quantitative Methoden, deckt die Lehrplan-Mindmap und die wichtigsten Details der Testpunkte vollständig ab.
Bearbeitet um 2022-03-10 12:05:13Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Quantitativ Methoden
Quantitativ Methode 1)
Lineare Regression
Annahmen
Linearität: Die lineare Beziehung zwischen Y und b1
Homoskedastizität ---Heteroskedastizitätsproblem
Unabhängigkeit ------Sequenzbezogene Probleme
Normalität
Punktschätzung
b0, b1 Formel
Rechner berechnet b0, b1
Schätzung des Konfidenzintervalls
Berechnung des Konfidenzintervalls
Der Standardfehler von b1 kann aus erhalten werden Rückschluss der t.stat-Ergebnisse in der ANOVA-TABELLE
Test des Regressionskoeffizienten
bedeutender Test über den Regressionskoeffizienten
T-Statistik
p-Wert
Konfidenzintervallmethode
Hypothesentest zum Regressionskoeffizienten ---t-Statistik
aussagekräftiger Korrelationstest
F-Test: Ho: b1=b2=…=bk=0
ANOVA-Tabelle
SS, df, MSS,
SEHEN
Bestimmtheitsmaß R2, Vielfaches R
Schätzung von Y
Punktschätzung
Schätzung des Konfidenzintervalls
Andere funktionale Form: Protokoll
Einschränkungen der Regression
Die Beziehung kann sich im Laufe der Zeit ändern
öffentliches Wissen über Regression
Regressionsannahmen
Multiple Regression
Der Unterschied zwischen multipler und linearer Regression
Partieller Regressionskoeffizient: Anderes konstant halten
keine exakten linearen Beziehungen: Multikollinearität bei Verletzung
Hypothesentest
Einzelparameter-Bi: t-Test mit unterschiedlichen Freiheitsgraden
F-Test: k ist anders
F vs. T-Test
Einheit: t^2=F
Multivariat: F berücksichtigt die Korrelation zwischen x und beeinflusst die Ergebnisse von t und F
Angepasstes R-Quadrat
Formel
R2>angepasstes R2
kann <0 sein
Dummy-Variable:X
n~n-1Dummy-Variable
Achsenabschnitt und geschätzter Koeffizient erklärt
Erläuterung der Schlussfolgerung des t-Tests
Annahmeverstöße
Heteroskedastizität
unbedingt vs. bedingt
Wirkung
betrifft nicht
Ergebnis der Punktschätzung b
Konsistenz der Parameterschätzungen
Beeinflussen
Intervallschätzung t·Sb
prüfen
t-stat.--Sb
MSE ist zu klein, P (Typ-I-Fehler) steigt
MSE ist zu groß, P (Typ-II-Fehler) steigt
F-Stat.--MSE
MSE ist zu klein, P (Typ-I-Fehler) steigt
MSE ist zu groß, P (Typ-II-Fehler) steigt
Erkennen
Streudiagramm
Blutdrucktest
Ho: keine Heteroskedastizität
Chi-Quadrat-Test: BP=n·R(Rest)^2
Chi-Quadrat-Verteilung, df=k, einseitig
Korrigieren
Roubust-Standardfehler (weißkorrigierte Standardfehler)
verallgemeinerte kleinste Quadrate
Serielle Korrelation (Autokorrelation)
Positiver vs. negativer SC
Wirkung
betrifft nicht
Ergebnis der Punktschätzung b
Konsistenz der Parameterschätzungen
Beeinflussen
Intervallschätzung t·Sb
t/F-Testergebnisse
Positiver SC, MSE ist klein, P (Typ-I-Fehler) steigt an
Negativer SC, MSE ist zu groß, P (Typ-II-Fehler) steigt
Erkennen
Streudiagramm
DW-Test
Ho: kein SC/kein positiver SC
DW=2·(1-r)
a, k, n, Entscheidungsregel
Korrigieren
Hansen-Methode (robuste Standardfehler): Beachten Sie den Unterschied zur White-Methode
verallgemeinerte kleinste Quadrate
Multikollinearität
Es kommt eher auf den Grad als auf Abwesenheit oder Anwesenheit an
Wirkung
betrifft nicht
Konsistenz der Parameterschätzungen
Beeinflussen
Ergebnis der Punktschätzung b
Intervallschätzung t·Sb
t/F-Testergebnisse
Multikollinearität, MSE ist zu groß, P (Typ-II-Fehler) steigt
Erkennen
Klassische Methode: unbedeutend t signifikant F hohes R-Quadrat
Gelegentlich empfohlene Methode: r>0,7
Korrigieren: Eine oder mehrere Regressionsvariablen ausschließen
Fehlspezifikationen des Modells – inkonsistent
enthalten
Falscher Variablensatz
Die funktionale Form der Regressionsgleichung ist falsch
Prinzip der Modellspezifikationen
Ökonomisches Denken
Art der Variablen
sparsam
auf Verstöße untersucht
nützlich außerhalb der Probe
Einstufung
Falsch spezifizierte funktionale Form
weggelassene Variable
unangemessene Variablenskalierung
unangemessene Datenzusammenführung
Fehlspezifikationen von Zeitreihen
verzögerte abhängige Variable als unabhängige Variable mit seriell korrelierten Fehlern
Funktion einer abhängigen Variablen als unabhängige Variable
Unabhängige Variablen werden mit Fehlern gemessen
Andere Arten von Zeitreihen-Fehlspezifikationen (nichtstationär)
Beziehungen zwischen Zeitreihen und Trends
Beziehungen zwischen Zeitreihen, die zufällig verlaufen können
Qualitative abhängige Variable
Probit- und Logit-Modell
Diskriminierungsmodell: Z-Score
Zeitreihenanalyse
Trendmodell
lineares Trendmodell
Yt gleicher Unterschied, Y ändert sich um einen konstanten Betrag: b1
Verstreute Punkte nähern sich einer geraden Linie an
Log-lineares Trendmodell
Yt ist gleich dem Verhältnis, Y wächst exponentiell: e^b1-1
Der Streuungstrend ist exponentiell
Einschränkung
Zeitreihendaten weisen normalerweise eine serielle Korrelation auf. Nicht für Trendmodell geeignet.
Autoregressives Modell (AR)
Mehrperiodenprognose: Kettenregel
Annahmen von AR
Kovarianz stationär
Starke Stationarität vs. schwache Stationarität
3 Bedingungen für stationäre Kovarianz
Erwartungswert über die Zeit konstant und unendlich
Varianz
Kovarianz
Natur
Die stationäre Vergangenheit garantiert nicht die stationäre Zukunft
Kovarianz stationäre Zeitreihen haben ein endliches Mittelwertumkehrniveau Xi=B0/(1-B1)
Verletzter Effekt: Einheitswurzel/B1=1/Random Walk
Zielloser Spaziergang
Random Walk mit Drift
Merkmale
kein mittleres Rückkehrniveau
unendliche Varianz
Erkennen
Einheitswurzeltest von Nichtstationären: gemeinsamer t-Test, Ho: B1=1
Dickey-Fuller-Test
Xt-Xt-1=bo (b1-1)Xt-1 €
g=b1-1, Ho:g=0, Ha:g<0
überarbeitete T-Table-Nachschlagetabelle
Korrektur: erster Unterschied
Fehler sind unkorrelierte Verletzung-Autokorrelation
Wirkung
betrifft nicht
Ergebnis der Punktschätzung b
Konsistenz der Parameterschätzungen
Beeinflussen
Intervallschätzung t·Sb: MSE---Sb
t/F-Testergebnisse
Positiver SC, MSE ist klein, P (Typ-I-Fehler) steigt an
Negativer SC, MSE ist zu groß, P (Typ-II-Fehler) steigt
Erkennen
DW ist nicht verfügbar, da die Fehlertermkorrelation 0 sein sollte, was ein Signifikanztest ist
T-Test: Sr=1/(Anzahl der Beobachtungen)^0,5 Anzahl der Beobachtungen = Stichprobengröße – p df=T-k-1 Ho ablehnen, r<>0, Autokorrelation existiert
Korrigieren
fügt saisonale Verzögerung hinzu
Homoskedastizität: ARCH
Wirkung
betrifft nicht
Ergebnis der Punktschätzung b
Konsistenz der Parameterschätzungen
Beeinflussen
Intervallschätzung t·Sb
prüfen
t-stat.--Sb
MSE ist zu klein, P (Typ-I-Fehler) steigt
MSE ist zu groß, P (Typ-II-Fehler) steigt
F-Stat.--MSE
MSE ist zu klein, P (Typ-I-Fehler) steigt
MSE ist zu groß, P (Typ-II-Fehler) steigt
Erkennen
BOGEN(1)
Signifikanztest für a1
t-Verteilung
Korrektur: GLS
Mehr als eine Zeitreihe
Kointegration
DF-EG-Test: Ho ablehnen, Kointegration, kann mehrere Regressionen verwenden
Vergleich der Modellleistung
Quantitativ
Prognosefehler in der Stichprobe
Prognosefehler außerhalb der Stichprobe: RMSE
Qualitativ
Instabilität des Regressionskoeffizienten
Daten von früher und später
kürzere und längere Datenperioden
Quantitativ Methode (2)
Maschinelles Lernen
maschinelles Lernen vs. statistischer Ansatz
Traditionelle Statistiken erfordern eine angenommene Verteilung
Datengröße
linear/nichtlinear
Datenkomplexität (Dimension)
Name von X,Y
Hyperparameter
Typen
Überwachtes Lernen
beschriftete Trainingsdaten
Einstufung
Regressionsmodell: kontinuierliche Zielvariable
Klassifizierungsmodell
binäre Klassifizierung
Klassifizierung mehrerer Kategorien
Unbeaufsichtigtes Lernen
Unbeschriftete Daten
Einstufung
Dimensionsreduzierung
Clusterbildung
Deep Learning und Reinforcement Learning
Gilt für beaufsichtigte und unbeaufsichtigte Personen
basierend auf einem neuronalen Netzwerk
Deep Learning: Wird für komplexe Aufgaben verwendet
Verstärkung: Lernen Sie aus Ihren eigenen Vorhersagefehlern
Überanpassung
Problem mit überwachtem maschinellem Lernen
drei nicht überlappende Datensätze
Trainingsprobe
Validierungsbeispiel – Tuning
Testmuster – auswerten
drei Fehler
Bias-Fehler: Fehler innerhalb der Stichprobe, Trainingsdaten passen nicht gut zum Modell, unzureichende Anpassung, hoher Stichprobenfehler
Varianzfehler: Out-of-sample-Fehler, Überanpassung, hoher Out-of-sample-Fehler
Grundfehler: Restfehler, nicht vermeidbar
Anpassungskurve: optimale Komplexität des Modells
Adressierungsmethode
Komplexitätsreduzierung: Überanpassungsstrafe
Kreuzvalidierung
bei der Kreuzvalidierung
k-fache Kreuzvalidierung
Überwachte Lernalgorithmen
Bestrafte Regression-Regression/kontinuierlich
Strafmaß: LASSO vs. OLS – linear
Regularisierung: Wird auf ein nichtlineares Modell angewendet
Support Vector Machine (SVM)-Klassifizierung/Distinct
Mechanismus: linear, Dichotomie, Hyperebene, maximaler Spielraum, Unterstützungsvektor, Diskriminanzgrenze
Einstufung
Harter Rand: linearer Klassifikator
Weicher Rand: nicht perfekt linear, Kompromiss zwischen breiterem Rand und Klassifizierungsfehler
Anwendbar: kleine bis mittlere Größe und komplexe hochdimensionale Daten
K-Nearest Neighbor(KNN)-Klassifizierung/Unterscheidbarkeit
Mechanismus: linear, klassifizieren Sie eine neue Beobachtung durch das Finden von Ähnlichkeiten, die Minderheit gehorcht der Mehrheit
zwei Bedenken
Hyperparameter k
k zu klein, hohe Fehlerquote
Wenn k zu groß ist, verwässern Sie das Ergebnis durch Mittelung
k ist gerade, möglicherweise kein klarer Gewinner
schwer, „ähnlich“ klar zu definieren
Anwendbar: Dichotomie/Polychotomie
Klassifizierungs- und Regressionsbaum (CART) – Regression und Klassifizierung
Mechanismus
linear und nichtlinear
Klassifizierungsbaum-kategoriale Zielvariable Regressionsbaumkontinuierliche Zielvariable
keine Blackbox
Entscheidungsbaum
Merkmale, Zweige, Grenzwert
anfänglicher Wurzelknoten: größter Abstand, Klassifizierungsfehler minimieren
Entscheidungsknoten: geringerer gruppeninterner Fehler
Endknoten: Der Klassifizierungsfehler verringert sich durch eine weitere Aufteilung nicht viel mehr wenn Klassifizierung ---- Mehrheit der Datenpunkte wenn Regression----Mittelwert der beschrifteten Werte
Vorteile und Nachteile
Vorteile: visuelle Erklärung liefern
Nachteile: Überanpassung; zu vermeiden
Regulierung
Beschneiden Sie den Abschnitt mit geringer Erklärungskraft
Ensemble- und Random-Forest-Kombinationsalgorithmus
Ensemble-Lernen
Zusammenschluss heterogener Lernender
Aggregation homogener Lernender: unterschiedliche Trainingsdaten – Bootstrap-Aggregation (Einsacken) wiederholter Stichproben
zufälliger Wald
Variante der Klassifizierungsbaumdaten, die aus demselben Datensatz stammen
Teilmenge der Funktionen, die bei der Erstellung jedes Baums verwendet werden – Überanpassung abmildern
Bestimmen Sie die endgültige Klassifizierung: Weisheit der Menge
Vorteil
vor Überanpassung schützen
Reduzieren Sie das Verhältnis von Rauschen zu Signal – Fehler werden über verschiedene Bäume aufgehoben
Nachteile: Blackbox
Unüberwachte Lernalgorithmen
Dimensionsreduktion: Hauptkomponentenanalyse
zusammengesetzte Variable, Eigenvektoren, Eigenwert (RSS/TSS) – Multikollinearität vermeiden
Vorteile und Nachteile
Vorteile: weniger Funktionen, Überanpassung vermeiden
Nachteile: Eigenvektoren sind eine Kombination ursprünglicher Merkmale, kein klar definiertes Konzept und könnten als Black Box wahrgenommen werden
Clustering
k-bedeutet Clustering
Mechanismus: Hyperparameter k, k nicht überlappende Cluster, Schwerpunkt
Anwendbar
sehr große Datensätze
hochdimensionale Daten
Mangel
Die Wahl der Hyperparameter k beeinflusst die Ergebnisse
Lösung: Verwenden eines Wertebereichs für k, um die optimale Anzahl von Clustern zu finden
hierarchische Clusterbildung
keine vordefinierte Anzahl von Clustern
agglomerative (von unten nach oben gerichtete) Clusterbildung
spaltendes (von oben nach unten gerichtetes) Clustering
Neutrale Netzwerke
Mechanismus
Künstliche neuronale Netze (ANN)
hochdimensionale Daten/lineare und nichtlineare Daten
drei Arten von Schichten
Eingabeebenen: Features
Verborgene Schichten: Möglichkeiten der Datenübertragung
Ausgabeschicht: ein Vorhersageergebnis
Hyperparameter von 4-5-1
jeder Knoten
Summationsoperator --- Gesamtnettoeingang
Aktivierungsoperator
Transformieren Sie den gesamten Netto-Input in den endgültigen Output des Knotens
Lichtdimmer---Verringern oder Erhöhen der Eingangsstärke
nichtlinear und linear
Neuronenmodellierung
Eingabe, synaptische Gewichte, Bias-Term, Gesamtnettoeingabe, Summationsoperator, aktive Funktion, Ausgabe
Vorwärtsausbreitung, Vorwärtsberechnung
Fehlerbehebung beheben
Rückwärtsausbreitung: Rückwärtsberechnung, synaptische Gewichte anpassen
Überarbeitung von Hyperparametern basierend auf der Leistung außerhalb der Stichprobe
Anwendungen
tiefe neuronale Netze (DNNs)
mehr als 20 versteckte Ebenen
allgemein nützlich für die Bild-, Muster- und Spracherkennung
Verstärkungslernen: lernt basierend auf unmittelbarem Feedback aus (Millionen) Versuchen und Irrtümern – AlphaGo
Auswahl an ML-Algorithmen
wenn die Daten komplex sind (zu viele Funktionen)
Ja
Dimensionsreduzierung
NEIN
wenn Klassifizierung
Ja
wenn beaufsichtigt
Ja
linear: KNN, SVM
nichtlinear: CART, Random Forest, neuronale Netze
NEIN
linear: k-bedeutet Clustering oder hierarchisches Clustering
nichtlinear: neuronale Netze
NEIN
linear: bestrafte Regression
nichtlinear: CART, Random Forest, neuronale Netze
Big-Data-Projekte
Einführung
Figuren: Volumen, Vielfalt, Geschwindigkeit, Wahrhaftigkeit (Gültigkeit), Wert
Datenanalyseschritte: Konzeptualisierung von Modellaufgaben, Datenerfassung, Datenaufbereitung und -verarbeitung, Datenexploration und Modelltraining
strukturierte Daten
1. Aufgabe/Blaupause/veränderbaren Plan konzipieren
2. Datenerfassung
externe Daten
Zugriff über API (Application Programming Interface)
Anbieter: CSV oder andere Formate
interne Daten
3. Datenaufbereitung und Datenverarbeitung
Datenaufbereitung (Bereinigung)
Unvollständigkeitsfehler
Ungültigkeitsfehler
Ungenauigkeitsfehler
Inkonsistenzfehler
Uneinheitlichkeitsfehler
Duplizierungsfehler
Ausreißer
Trimmen (Abschneiden)
Winsorisierung: Durch maximalen oder minimalen Wert ersetzen
Datenverarbeitung (Vorverarbeitung)
Transformation
Extraktion: Geburtstagsalter
Aggregation: Gehaltseinnahmen=Gesamteinkommen
Filterung: Datenzeilen, die nicht benötigt werden
Auswahl: Spalten werden nicht benötigt, z. B. Name und ID benötigen nur eine
Umrechnung: CAD-USD
Skalierung
Normalisierung
Formel: Normalisierung
Ausgezeichnet: Wird verwendet, wenn die Datenverteilung unbekannt ist
Fehlt: empfindlich gegenüber Ausreißern
Standardisierung
Formel
Ausgezeichnet: weniger empfindlich gegenüber Ausreißern, da es vom Mittelwert und der Standardabweichung abhängt
Fehlt: Daten müssen normalverteilt sein
4. Datenexploration
explorative Datenanalyse (EDA)
zusammengefasste Statistiken
Visualisierung
Merkmalsauswahl
Feature-Engineering
5.Modellschulung
Auswahlmethode
Leistungsbeurteilung
Fehleranalyse
Verwirrung Matrix
Präzision, Rückruf, Genauigkeit, F1-Score
Betriebseigenschaften des Empfängers (ROC)
Form der ROC-Kurve
konvexere Kurve – besser
Fläche unter der Kurve (AUC): 0,5 zufällige Schätzung
Root Mean Square Error (RMSE) – nützlich für das Regressionsmodell
Modelltuning
Minimieren Sie den Gesamtgesamtfehler
Parameter und Hyperparameter
Ändern der Hyperparameter
Jeder Hyperparameter ist eine Verwirrungsmatrix
mehrere Hyperparameter
Rastersuche: verschiedene Kombinationen von Hyperparametern
Deckenanalyse: Der Teil der Pipeline kann potenziell die Leistung verbessern
unstrukturierte Daten
3. Textvorbereitung und Auseinandersetzung
Textvorbereitung (Bereinigung)
HTML-Tags entfernen
Satzzeichen entfernen: Einige müssen durch Anmerkungen ersetzt werden
Zahlen entfernen
Leerzeichen entfernen
Textverarbeitung (Vorverarbeitung)
Normalisierung
Kleinschreibung
Entfernung von Stoppwörtern
entstammen
Lemmatisierung
Bag-of-Words(BOW)-Verfahren: N-Gramm
Dokumenttermmatrix (DTM)
4. Texterkundung
EDA
Textstatistik: Begriffshäufigkeit, Kookkurrenz
Visualisierung
Merkmalsauswahl
Reduzierung der BOW-Größe
Methoden
Dokumenthäufigkeit (DF)
Chi-Quadrat
gegenseitige Information: MI=1, Token ist besser identifizierbar
Feature-Engineering
Nummer
n-Gramm
Namensentitätserkennung (NER)
Wortarten (POS)