Galerie de cartes mentales Quantité CFA Niveau 2
Carte mentale de niveau CFA 25 % à 10 %, comprenant une introduction à la régression linéaire, à la régression linéaire multiple, à l'analyse de séries chronologiques, à l'apprentissage automatique et au Big Data.
Modifié à 2023-09-13 19:57:14quantité 5%-10%
Introduction à la régression linéaire
Hypothèses de base
relation linéaire x, y
x n'a rien à voir avec le résidu
L'espérance résiduelle est 0
La variance du terme résiduel est constante pour toutes les observations
Les termes résiduels sont distribués indépendamment
Résidus normalement distribués
Hypothèses résiduelles
Modèle de régression
"^" indique la valeur prédite
Interception, représente le rendement ajusté au risque, alpha ex post
Coefficient de pente, risque de marché
SSE : somme des erreurs quadratiques L'écart type du résidu (valeur estimée - valeur réelle), la régression linéaire est la droite qui minimise le SSE
passages de la droite de régression
Test paramétrique
indice
Erreur standard VOIR
erreur standard d'estimation, erreur standard, mesure le degré de changement de y et de la somme, mesure le degré d'ajustement, plus il est petit, mieux c'est
Le degré de dispersion entre les moyennes de l'échantillon dans un échantillonnage multiple reflète la représentativité de la moyenne de l'échantillon par rapport à la moyenne globale.
Coefficient de détermination : le pourcentage de changements de y qui peuvent être expliqués par x
Pour la régression linéaire, il est égal au carré du coefficient de corrélation
Pas vrai pour la régression multiple
ANOVA, analyse de variance
SST, somme totale des carrés mesure la variation totale entre la valeur réelle et la valeur moyenne, la somme des carrés de la valeur réelle - la valeur moyenne
RSS, la somme des carrés de régression mesure la variation de y qui peut être expliquée par x. La partie trouvée par régression peut être expliquée. Valeur prédite - somme moyenne des carrés.
SSE, somme des carrés des erreurs : mesure les changements inexpliqués, valeur réelle - somme des carrés des valeurs prédites. La différence entre la valeur réelle et la valeur prédite n'est pas expliquée par l'équation de régression, elle forme donc un écart.
SST=RSS SSE
Écart type résiduel, degré dans lequel les valeurs réelles observées s'écartent de la ligne de régression
Inconvénients de l'analyse de régression
Les paramètres sont instables et les relations linéaires peuvent changer avec le temps
D'autres acteurs du marché utilisant le même modèle limitent l'efficacité du modèle
Les hypothèses de l'analyse de régression doivent être établies, sinon il y aura hétéroscédastique (la variance résiduelle n'est pas constante) et autocorrélation (les termes résiduels ne sont pas indépendants)
la régression linéaire multiple
Modèle
Interception : y lorsque x sont tous 0
Pente : l'autre x reste inchangé (en maintenant xxx constant), déterminez l'ampleur du changement de y provoqué par les changements de x
Test de signification des paramètres
Statistiques des tests
Test d'hypothèse, obéissez à t(n-k-1)
n → nombre d'observations ; k → nombre de x ;
Comparez la statistique de test calculée avec la valeur critique obtenue en consultant le tableau pour tirer une conclusion
valeur p
Comparez la valeur critique avec la valeur p. Si la valeur p < valeur critique, rejetez l'hypothèse nulle. S'il y a une valeur p dans l'examen, utilisez d'abord la valeur p.
Intervalle de confiance
Test F(k, n-k-1)
Principalement utilisé pour la régression linéaire multiple, testant qu'au moins 1 x explique de manière significative Y
queue unique
Dans la régression linéaire multiple, la valeur augmente à mesure que le nombre de x dans l'équation de régression augmente.
variables fictives
Prenez des valeurs spécifiques comme « oui », « non » etc.
Piège à variable factice, n valeurs, seules n-1 variables sont nécessaires
L'interception représente la valeur de la catégorie omise
La pente représente le changement de la variable dépendante de y provoqué par la différence entre la variable muette et la catégorie omise.
violation des hypothèses
Hétéroscédasticité
Définition : les écarts résiduels sont différents entre les points d'échantillonnage
taper
hétéroscédasticité inconditionnelle : n'a rien à voir avec les changements de x et n'a pas d'impact significatif sur la régression
hétéroscédasticité conditionnelle : le résidu change à mesure que x change, ce qui a un impact significatif sur l'inférence statistique
Influence
Détection
Méthode 1 : nuage de points
Méthode 2 : test du chi carré
correct
Méthode 1 : Calculer l'erreur type corrigée en blanc, également appelée erreur type robuste/hétéroscédasticité cohérente
Méthode 2 : calculer les moindres carrés généralisés
Corrélation en série(c'est-à-dire autocorrélation) autocorrélation
Définition : Corrélation entre les résidus, courante dans les séries chronologiques
taper
Corrélation sérielle positive : une erreur de régression positive dans la période actuelle augmente la probabilité d'une erreur de régression positive dans la période suivante
Corrélation sérielle négative : une erreur de régression positive dans la période actuelle augmente la probabilité d'une erreur de régression négative dans la période suivante
Influence
Détection
nuage de points, tracé résiduel
DW (Durbin-Watson) statistiques
r est le coefficient de corrélation entre les résidus de la période actuelle et précédente
correct
Méthode 1 : Ajuster les erreurs standard : s'il n'y a qu'une hétéroscédasticité, utiliser des erreurs standard corrigées en blanc. S'il y a une autocorrélation ou les deux, utiliser la méthode Hansen ;
Méthode 2 : Améliorer le modèle, par exemple en ajoutant des caractéristiques temporelles, telles que les saisons
Multicolinéarité Multicolinéarité
Définition : Corrélation entre variables indépendantes ou combinaisons de variables indépendantes
taper
multicolinéarité parfaite
Une variable peut être exprimée par une combinaison linéaire d'autres variables explicatives
Impossible d'estimer les coefficients à l'aide de la méthode OLS
multicolinéarité incomplète
Il existe un degré élevé de corrélation entre deux ou plusieurs variables indépendantes
Cela n’affecte pas l’utilisation de la méthode OLS, mais cela entraînera un biais important dans au moins un estimateur de coefficient variable indépendant.
Influence
N'affecte pas l'impartialité de β1, ce qui entraîne une plus grande var(β1)
Produit des erreurs de type II, courantes dans les modèles économiques
Détection
Le test t a révélé qu'aucun coefficient n'était significativement différent de 0, mais le test F a montré qu'il était significatif et que le R carré était élevé.
Une forte corrélation entre x indique une forte possibilité de multicolinéarité ; mais une faible corrélation entre x n'indique pas l'absence de multicolinéarité. Il se peut que la combinaison linéaire entre x soit corrélée.
correct
Ignorer une ou plusieurs variables indépendantes associées et effectuer une régression pas à pas régression pas à pas
spécification erronée du modèle
Influence
L'inférence statistique des coefficients estimés est erronée
Les coefficients estimés ne sont pas cohérents
taper
Erreur de formulaire de fonction
il manque des variables importantes
Mauvaise forme de fonction
Mauvaise fusion de différents échantillons de données
La variable indépendante est liée au terme résiduel
La variable indépendante contient le terme décalé de la variable dépendante
La variable indépendante est une forme fonctionnelle de la variable dépendante
Il existe un biais dans la mesure des variables indépendantes
Erreur de définition de série temporelle
Principes de définition du modèle
Il doit y avoir une certaine base pour éviter les biais d’exploration de données.
La forme de la fonction variable doit être conforme aux caractéristiques réelles des données variables
lâche parcimonieux : efficace et simple
Répond à 6 hypothèses majeures
Surveillance des données hors échantillon réussie
variable dépendante qualitative
variable muette
méthode de régression
modèle probit modèle probit
Modèle logit modèle logit
Estimer la probabilité que la variable dépendante prenne 1
Modèles discriminants d'analyse discriminante
Tel que le score Z
Analyse des séries chronologiques
modèle de tendance
Modèle de tendance linéaire (inflation)
Les variables augmentent d'un montant fixe à l'aide d'un modèle linéaire
Modèle de tendance linéaire logarithmique (cours boursier et indice boursier)
Les variables croissent à un taux fixe à l'aide d'un modèle logarithmique
limitation
Les modèles log-linéaires ne conviennent pas à une application aux données autocorrélées
modèle autorégressif, AR
définition
Prédire le y actuel en utilisant un ou plusieurs y passés
covariance stationnaire
Conditions d'établissement
Les attentes sont constantes et finies
La variance est constante et finie
La covariance entre les valeurs avancées et retardées est constante et finie
cyclique
test de corrélation en série
L'hypothèse de régression doit être remplie : il n'y a pas de corrélation sérielle dans les termes résiduels
coefficient d'autocorrélation autocorrélation
coefficient d'autocorrélation d'ordre k : le coefficient de corrélation entre la série chronologique y au temps t et au temps t-k
Tester si le coefficient d'autocorrélation de chaque ordre entre les termes résiduels est significativement différent de 0
Construire et estimer des modèles AR(1)
Calculer le coefficient de corrélation entre les termes résiduels
Tester si les coefficients de corrélation de chaque ordre des résidus sont significativement différents de 0
T est la période numéro-1
retour à la moyenneréversion à la moyenne
En dessous de la moyenne monte à la moyenne, au-dessus de la moyenne descend à la moyenne
niveau de retour à la moyenneniveau de retour à la moyenne
Prédiction du modèle
RMSE (erreur quadratique moyenne) Plus l'erreur quadratique moyenne est faible, mieux c'est
La période de sélection est différente, le coefficient est différent et il est instable.
marche aléatoire
N'a pas de propriétés de retour à la moyenne
définition
marche aléatoire avec dérive marche aléatoire avec dérive
nature
niveau de retour moyen à l'infini
racine unitaire
incovariance stationnaire
Détecter la stationnarité de la covariance
sous-thème
résoudre
première différence première différence
Appliquer le modèle autorégressif AR(1) à y
racine unitaire
Déterminer si la série chronologique est stationnaire
Dans le modèle AR(1), la valeur absolue de β1 est supérieure ou égale à 1 et la série temporelle n’est pas stationnaire.
Test de Dickey Fuller
Si la série chronologique différenciée est stationnaire, alors la conclusion d'inférence statistique obtenue grâce au modèle AR(1) est fiable
Hypothèse nulle : il existe une racine unitaire
facteurs saisonniers
Un modèle qui se répète chaque année Des facteurs saisonniers doivent être ajoutés au modèle AR
La statistique Lag4 t est significativement différente de 0, ce qui indique que lag4 a une saisonnalité et doit être ajouté au modèle.
Toujours AR(1) pas AR(2)
Modèle autorégressif d'hétéroscédasticité conditionnelle Modèle ARCH
La variance des résidus de la période en cours dépend de la variance des résidus de la période précédente. À l’heure actuelle, l’erreur type du coefficient du modèle AR et le test d’hypothèse sont tous deux inexacts.
Pour résoudre le problème, introduisez le modèle ARCH
Modèle de régression ARCH(1) : utilisez la variance résiduelle à t-1 pour prédire la variance résiduelle à t
Hypothèse nulle : a1=0
cointégré
Deux séries chronologiques sont liées à des variables macro communes et ont des tendances identiques et inchangées
relation à long terme
Utiliser une série chronologique pour prédire une autre série chronologique
Utilisez le test DF-EG pour tester la cointégration. L'hypothèse nulle est : racine unitaire. Le rejet de l'hypothèse nulle indique que la covariance est stationnaire et cointégrée. Pour la cointégration, la régression linéaire peut être utilisée pour modéliser la relation entre deux séries temporelles.
apprentissage automatique
Classification
Apprentissage supervisé : apprentissage supervisé
régression pénalisée régression pénalisée
régularisationrégularisation
Le LASSO revient
Machine vectorielle de supportSVM
Convient aux problèmes de régression et de classification
Idée : la marge entre les classes est la plus grande, formant un hyperplan séparateur
K approche, K-voisin le plus proche
Idée : la catégorie la plus courante à proximité de la cible x est la même catégorie que x
arbre de classification et de régression, CART
branche bifurquée
apprentissage d'ensemble et forêt aléatoire apprentissage d'ensemble et forêt aléatoire
Classement des votes
Agrégation Bootstrap, Bagging
Échantillonnage n fois pour former n modèle de formation
Aide à prévenir le surapprentissage et supprime les événements à faible probabilité n fois
forêt aléatoire
Vote multiple CART
Apprentissage non supervisé : apprentissage non supervisé
Analyse en composantes principales ACP, analyse en composantes principales
Réduction de dimensionnalité, décomposition orthogonale
classification hiérarchique
clustering diviseur/clustering hiérarchique, clustering descendant
clustering agglomératif, clustering ascendant
La distance entre des échantillons similaires doit être aussi petite que possible et la distance entre les différentes catégories doit être aussi grande que possible.
K-signifie, k-signifie
regroupement descendant
étape
Sélectionnez k centroïdes
Calculez la distance entre chaque point de données et le centre de gravité et classez-le dans la classe la plus proche
Mettre à jour le centroïde, défini comme le point moyen des différentes classes à l'étape précédente
Arrêtez la mise à jour si les changements sont mineurs
apprentissage profond apprentissage profond
en couches
couche d'entrée
couche de sortie
Calque masqué
fonctionnalité
fonction d'activation fonction d'activation
Valeur pondérale de chaque couche
hyperparamètres
Apprentissage renforcé : apprendre de ses propres erreurs
Système de récompense et de punition pour les résultats des actions, modèle de formation
alphaGo
Évaluation du modèle
Surapprentissage
Sous-ajustement
Évaluer le taux d'erreur
base de données
Ensemble de formation (modèle de formation)
dans l'échantillon
Ensemble de validation (modèle de validation et de débogage)
Ensemble de test (évaluation du modèle sur de nouvelles données)
hors échantillon
erreur
erreur de biais
Dans l'échantillon, ensemble de formation, sous-ajustement
écart écart erreur
Hors échantillon, ensemble de validation, surapprentissage
Complexité du modèle ↑, variance ↑, biais ↑
erreur de base de l'écart de base
Résidus de bruit aléatoire
Big Data
fonctionnalité
3V : Grand volume, grande source de variété, génération de données rapide et éventuellement véracité précise ;
Modélisation de données structurées
Avoir une idée des tâches à modéliser
Collecte de données
Préparation et traitement des données
Préparer
données incomplètes
valeur manquante valeur manquante
Inexactitude des données
Les données sont incohérentes
inconsistant
erreur non-standard non-uniformité
Le format n'est pas uniforme
Données en double
rangé
Extraction de données
Construire de nouvelles variables
agrégation
Ajouter pour obtenir une nouvelle variable
filtre
Supprimez les colonnes de données inutiles
choisir
Supprimez les lignes de données inutiles
Convertir
Convertir en type de données approprié
Traitement des valeurs aberrantes
Au-delà de 3 fois l'écart type
Au-delà de 3 fois l'IQR
IQR : la différence entre le quantile 75 %-25 %
identifier
traiter avec
Découpage : supprimer les valeurs aberrantes
Winsorisation : remplacer les valeurs aberrantes par les valeurs maximales et minimales des valeurs non aberrantes
Normalisation des données
normalisation
standardisation
Exploration des données
Analyse exploratoire des donnéesEDA
visualisation de données
moyenne, variance, etc.
Sélection de fonctionnalité
Sélectionner de manière itérative les fonctionnalités les plus influentes
Le choix entre le pouvoir explicatif du modèle et la vitesse de l’algorithme
ingénierie des fonctionnalités
Créer des fonctionnalités
Les données catégorielles de codage à chaud sont traitées en représentation binaire des données (factice)
Modèle de formation
Sélection du modèle
Considérez supervisé/non supervisé, le type de données, le type de données, la taille des données
Type numérique - CART ; type textuel - modèle linéaire généralisé GLM/SVM données d'image - modèle profond ;
Évaluation des performances
Réglage
Ensemble de données déséquilibré, utiliser le suréchantillonnage ou le sous-échantillonnage
Modélisation de données non structurées
Analyse de texte : détermination de l'entrée et de la sortie
curation de donnéesconservation de données
Préparation et organisation des données textuelles
Préparer
Supprimez les balises HTML, la ponctuation, les chiffres et les espaces
ranger se disputer
Convertir le texte en minuscule
Supprimer les mots vides
émanant de la vapeur
Prendre racine
lemmatisation
faire → faire
Sacs de mots, BOW Une collection désordonnée de mots
Analyse des caractéristiques du texte
matrice des termes du document : les lignes sont des documents, les colonnes sont des mots et la grille est le nombre de fois qu'un mot apparaît dans un document.
N-gramme : n mots dans une phrase sont divisés en un, 2 grammes sont divisés en deux et une phrase de 3 mots produit 2 grammes.
exploration de texte
AED
fréquence des termes ; nuage de mots, etc.
Sélection de fonctionnalité
ingénierie des fonctionnalités
Modèle de formation
Évaluation du modèle
erreur d'analyse
matrice de confusion matrice de confusion
ROC, caractéristique de fonctionnement du récepteur
RMSE, erreur quadratique moyenne
Réglage du modèle
Équilibrage de la variance/biais, régularisation, recherche de grille, analyse du plafond (l'analyse du plafond identifie chaque étape du processus de modélisation d'optimisation)