Galerie de cartes mentales Analyse et exploration de Big Data - Plan de cours d'essai arbre de décision et analyse de régression
Il s'agit d'un article sur l'analyse et l'exploration de données volumineuses - plan de cours d'essai : carte mentale de l'arbre de décision et analyse de régression. Le contenu principal comprend : 4. Résumé (environ 1 minute), 3. Analyse de régression (environ 6 minutes), 2. Arbre de décision (environ 6 minutes), 1. Introduction du scénario (environ 2 minutes).
Modifié à 2024-11-23 00:43:18In order to help everyone use DeepSeek more efficiently, a collection of DeepSeek guide mind map was specially compiled! This mind map summarizes the main contents: Yitu related links, DS profile analysis, comparison of DeepSeek and ChatGPT technology routes, DeepSeek and Qwen model deployment guide, how to make more money with DeepSeek, how to play DeepSeek, DeepSeek scientific research Application, how to import text from DeepSeek into MindMaster, the official recommendation of DeepSeek Wait, allowing you to quickly grasp the essence of AI interaction. Whether it is content creation, plan planning, code generation, or learning improvement, DeepSeek can help you achieve twice the result with half the effort!
This is a mind map about DeepSeek's 30 feeding-level instructions. The main contents include: professional field enhancement instructions, interaction enhancement instructions, content production instructions, decision support instructions, information processing instructions, and basic instructions.
This is a mind map about a commercial solution for task speech recognition. The main content includes: text file content format:, providing text files according to the same file name as the voice file.
In order to help everyone use DeepSeek more efficiently, a collection of DeepSeek guide mind map was specially compiled! This mind map summarizes the main contents: Yitu related links, DS profile analysis, comparison of DeepSeek and ChatGPT technology routes, DeepSeek and Qwen model deployment guide, how to make more money with DeepSeek, how to play DeepSeek, DeepSeek scientific research Application, how to import text from DeepSeek into MindMaster, the official recommendation of DeepSeek Wait, allowing you to quickly grasp the essence of AI interaction. Whether it is content creation, plan planning, code generation, or learning improvement, DeepSeek can help you achieve twice the result with half the effort!
This is a mind map about DeepSeek's 30 feeding-level instructions. The main contents include: professional field enhancement instructions, interaction enhancement instructions, content production instructions, decision support instructions, information processing instructions, and basic instructions.
This is a mind map about a commercial solution for task speech recognition. The main content includes: text file content format:, providing text files according to the same file name as the voice file.
Analyse et exploration de Big Data - Plan de cours d'essai : arbre de décision et analyse de régression
1. Introduction du scénario (environ 2 minutes)
Introduction du scénario : posez une question pratique, telle que : Comment une banque peut-elle prédire le risque de défaut de paiement sur la base des informations relatives aux clients ? Comment les plateformes de commerce électronique recommandent-elles des produits en fonction du comportement des utilisateurs ? Faire ressortir l’importance des méthodes courantes d’exploration de données.
Présentation du sujet : Aujourd'hui, nous étudions principalement deux méthodes courantes dans l'exploration de données : l'arbre de décision et l'analyse de régression.
2. Arbre de décision (environ 6 minutes)
La signification de l’arbre de décision (environ 1 minute) :
Définition : Un arbre de décision est une structure arborescente qui guide le processus de prise de décision à travers une série de questions ou de conditions.
Explication visuelle : cela peut être comparé au processus de prise de décision dans notre vie quotidienne, où une décision est finalement prise à travers plusieurs niveaux de sélection.
L'arbre de décision est comme un « arbre de guidage » sage. Il se dresse dans la forêt de données et nous aide à nous orienter et à trouver les réponses que nous souhaitons. Imaginez que vous vous trouvez à une intersection inconnue et que vous souhaitez vous rendre vers une destination spécifique mais que vous ne savez pas où aller. A ce moment, si un « arbre guide » apparaît devant vous, que fera-t-il ?
Composantes d'un arbre de décision (environ 1,5 minutes) :
(1) Nœud de décision : le nœud qui détermine la branche suivante.
(2) Branche de plan : la branche dérivée du nœud de décision représente différents plans de décision.
(3) Nœud de statut : nœud qui représente le résultat ou le statut de la décision, qui peut être un résultat intermédiaire ou un résultat final.
(4) Branche de probabilité : connecte les nœuds d'état et représente la probabilité que différents états se produisent.
Étapes de construction de l'arbre de décision (environ 1 minute) :
La première étape consiste à dessiner un diagramme en arbre et à organiser chaque schéma et les différents états naturels de chaque schéma en fonction des conditions connues.
Dans la deuxième étape, marquez la probabilité et la valeur des profits et pertes de chaque état sur la branche de probabilité.
La troisième étape consiste à calculer la valeur attendue de chaque plan et à la marquer sur le nœud d'état correspondant au plan.
La quatrième étape consiste à effectuer l'élagage (l'élagage est l'un des moyens d'arrêter la ramification dans un arbre de décision. Afin d'éviter le surajustement, l'arbre généré doit être élagué pour supprimer certains nœuds inutiles), comparer les valeurs attendues de chacun solution, et marquez-le sur la branche du plan, et le dernier plan restant avec une petite valeur attendue (c'est-à-dire, éliminant les plans inférieurs) est le meilleur plan.
Avantages et inconvénients des arbres de décision (environ 0,5 minute) :
Avantages : Intuitif, facile à comprendre, hautement interprétable et capable de gérer des données numériques et catégorielles.
Inconvénients : sujet au surajustement, sensible aux valeurs aberrantes, manque de douceur et biais en faveur de la sélection de fonctionnalités avec plus de valeurs propres.
Dans les applications pratiques, il est nécessaire de choisir s'il convient d'utiliser un arbre de décision et comment l'optimiser en fonction de scénarios et de besoins spécifiques.
Le champ d'application et les méthodes courantes des arbres de décision (environ 2 minutes) :
Champ d'application : convient aux problèmes de classification et de prédiction, en particulier lorsque la sélection des fonctionnalités est claire et que la taille des données est modérée.
Méthodes couramment utilisées :
1. Arbre C&R (Arbre de Classification et de Régression) : Le processus de raisonnement est entièrement basé sur les caractéristiques de valeur des variables d'attribut. Il est facile à comprendre et peut être utilisé à la fois pour la classification et la régression.
2.Arbre de décision QUEST : Un arbre statistique rapide, impartial et efficace qui utilise une technologie appelée « segmentation rapide » pour accélérer le processus de construction de l'arbre de décision et est particulièrement adapté au traitement de grands ensembles de données.
3. Arbre de décision CHAID : L'algorithme d'arbre de décision basé sur le test du chi carré convient aux problèmes de classification, en particulier lorsque la variable cible est une variable catégorielle. Il est largement utilisé dans le marketing, la segmentation des clients et d'autres domaines.
Arbre de décision 4.C5.0 : une version améliorée de C4.5, avec une efficacité d'exécution et une utilisation de la mémoire optimisées, une efficacité plus élevée et une capacité plus forte à traiter de grands ensembles de données. Il est largement utilisé dans l'évaluation du crédit, le diagnostic des maladies et d'autres domaines.
Développer
Dans la gestion de projet et l’analyse des risques, les arbres de décision et EMV sont souvent utilisés ensemble.
Les arbres de décision aident les décideurs à comprendre les problèmes plus clairement en affichant graphiquement le processus de prise de décision et les résultats ; tandis que l'EMV utilise l'analyse quantitative pour aider les décideurs à évaluer les risques de manière plus complète, objective et spécifique et à prendre des décisions optimales.
3. Analyse de régression (environ 6 minutes)
La signification de l'analyse de régression (environ 1 minute) :
L'analyse de régression est une méthode d'analyse statistique des données. Elle étudie principalement comment une ou plusieurs variables indépendantes (également appelées variables prédictives, variables explicatives ou variables indépendantes) affectent la variable dépendante (également appelée variable de réponse, variable expliquée ou changements dans la variable dépendante). ).
En termes simples, l'analyse de régression tente de trouver une relation ou un modèle mathématique entre les variables indépendantes et la variable dépendante afin que la valeur de la variable dépendante puisse être prédite en fonction de la valeur de la variable indépendante.
L'analyse de régression est largement utilisée dans divers domaines, tels que l'économie, la sociologie, la médecine, l'ingénierie, etc. Par exemple:
En économie, l'analyse de régression peut être utilisée pour étudier la relation entre des variables économiques telles que le revenu, la consommation et l'investissement ;
En médecine, il peut être utilisé pour étudier l’impact de la posologie du médicament, du poids du patient, de son état de santé et d’autres facteurs sur l’effet thérapeutique ;
En ingénierie, il peut être utilisé pour étudier l’impact des propriétés des matériaux, des paramètres de processus et d’autres facteurs sur la qualité des produits.
Classification de l'analyse de régression (environ 2 minutes) :
(1) Régression linéaire : il existe une relation linéaire entre la variable indépendante et la variable dépendante, qui est le type le plus simple et le plus couramment utilisé.
(2) Régression logistique : principalement utilisée pour les problèmes de classification, prédire la probabilité d'un événement et cartographier les résultats de la régression linéaire entre 0 et 1 pour exprimer la probabilité.
(3) Régression polynomiale : la relation entre les données entre la variable indépendante et la variable dépendante n'est pas linéaire, mais a une relation polynomiale, et les données peuvent être ajustées par des polynômes.
(4) Régression pas à pas : en introduisant ou en éliminant progressivement des variables indépendantes, des variables indépendantes importantes sont automatiquement sélectionnées pour éviter la multicolinéarité et sélectionner le modèle de régression optimal.
(5) Régression Ridge : méthode de régression linéaire améliorée qui traite les données de grande dimension, réduit la complexité du modèle, empêche le surajustement et est utilisée pour résoudre les problèmes de multicolinéarité.
Modèles de régression couramment utilisés (environ 1,5 minute) :
(1) Modèle de régression linéaire : y = ax b, où a est la pente et b est l'ordonnée à l'origine.
(2) Modèle de régression non linéaire : il existe une relation non linéaire entre les variables indépendantes et les variables dépendantes, telles que les fonctions exponentielles, les fonctions logarithmiques, etc.
(3) Modèle de régression logistique : utilisé pour prédire la probabilité qu'un événement se produise, par exemple prédire si un utilisateur cliquera sur une publicité.
(4) Modèle de régression Ridge : ajoutez des termes de régularisation à la fonction de perte pour éviter le surajustement.
(5) Régression en composantes principales : réduire le nombre de variables indépendantes et améliorer l'efficacité du modèle grâce à la réduction de la dimensionnalité. Effectuez d’abord une analyse en composantes principales sur les variables indépendantes, puis utilisez les composantes principales pour effectuer une régression.
Étapes de base de l'analyse de régression (environ 1,5 minute) :
(1) Déterminer les variables indépendantes et les variables dépendantes : Clarifier les questions et les objectifs à étudier.
(2) Collecter des données : collecter des données pertinentes sur les variables indépendantes et les variables dépendantes.
(3) Sélectionnez un modèle de régression : sélectionnez un modèle approprié en fonction des caractéristiques des données et des objectifs de recherche.
(4) Ajustement du modèle : utiliser les données pour estimer les paramètres du modèle.
(5) Évaluation du modèle : évaluer l'effet d'ajustement et la capacité de prédiction du modèle.
(6) Application du modèle : utiliser des modèles pour la prédiction et l'analyse.
4. Résumé (environ 1 minute)
Passez brièvement en revue les éléments clés des arbres de décision et de l’analyse de régression. Insistez sur le rôle important et les scénarios d’application de ces deux méthodes dans l’exploration de données. Les étudiants sont encouragés à étudier et à explorer davantage après les cours.