Galerie de cartes mentales Carte mentale des technologies d'exploration et d'analyse de données
Processus informatique qui utilise des méthodes telles que l’intelligence artificielle, l’apprentissage automatique et les statistiques pour extraire des modèles ou des connaissances utiles et jusqu’alors inconnus à partir d’énormes quantités de données.
Modifié à 2021-12-27 22:46:49Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Technologie d'exploration et d'analyse de données
Chapitre 1 Présentation de l'exploration de données
Comprendre avant le cours
résumé
apprentissage automatique
Procédures opérationnelles
importation de données
Prétraitement des données
ingénierie des fonctionnalités
Diviser
Modèle de formation
Modèle d'évaluation
Prédire de nouvelles données
IA
Caractéristiques du Big Data
Beaucoup
Divers
grande vitesse
valeur
1.1 Introduction à l'exploration de données
définition
Processus informatique qui utilise des méthodes telles que l’intelligence artificielle, l’apprentissage automatique et les statistiques pour extraire des modèles ou des connaissances utiles et jusqu’alors inconnus à partir d’énormes quantités de données.
arrière-plan
La quantité de données a considérablement augmenté, donnant naissance à de nouvelles orientations de recherche : la découverte de connaissances basées sur des bases de données et la recherche sur les théories et technologies correspondantes d’exploration de données.
Le prochain hotspot technologique après Internet
Si une grande quantité d’informations apporte du confort aux gens, elle pose également de nombreux problèmes.
Trop d'informations et difficile à digérer
Il est difficile de distinguer l'authenticité des informations
La sécurité des informations est difficile à garantir
Les informations se présentent sous différentes formes et sont difficiles à traiter de manière uniforme
Des données explosives mais une connaissance médiocre
L’évolution des données métiers vers les informations métiers
Collecte de données → accès aux données → entrepôt de données, aide à la décision → exploration de données (fournir des informations prédictives)
scène
Prétraitement des données
Nettoyer, intégrer, sélectionner, transformer
exploration de données
évaluation du modèle
processus
données, informations, connaissances
données
"8 000 m", "10 000 m"
Produits à partir de l'observation et de la mesure de choses objectives, nous appelons les choses objectives étudiées des entités.
information
"8 000 m est l'altitude maximale pour le vol d'un avion", "10 000 m de haute montagne"
Connaissance
"Les avions ne peuvent pas franchir cette montagne"
sagesse
contenu principal
Exploration des règles d'association
bière et couches
apprentissage automatique supervisé
Prédiction d'étiquettes discrètes : classification d'étiquettes
Prédiction continue d'étiquettes - Prédiction numérique
Apprentissage automatique non supervisé : clustering (algorithme de similarité)
retour
Établir des relations quantitatives entre plusieurs variables
Classification des algorithmes
enseignement supervisé
Apprenez une fonction (modèle) à partir des données d'entraînement données Lorsque de nouvelles données arrivent, le résultat peut être prédit sur la base de cette fonction (modèle).
Les données de formation ont une identification ou des résultats clairs
Algorithme de régression, réseau neuronal, machine vectorielle de support SVM
Algorithme de régression
régression linéaire
Traitez des problèmes numériques et le résultat final de la prédiction est un nombre, tel que : prix de l'immobilier
régression logistique
Appartient à un algorithme de classification, tel que : déterminer si un email est du spam
Les réseaux de neurones
Appliqué à la reconnaissance visuelle et à la reconnaissance vocale
Algorithme de machine vectorielle de support SVM
Amélioration de l'algorithme de régression logistique
apprentissage non supervisé
Les données d'entraînement ne sont pas spécifiquement étiquetées
Algorithme de clustering, algorithme de réduction de dimensionnalité
Algorithme de clustering
Calculez la distance dans la population et divisez les données en plusieurs populations en fonction de la distance
Algorithme de réduction de dimensionnalité
Réduisez les données d'une dimensionnalité élevée à une dimensionnalité faible. La dimension représente la taille de la quantité de caractéristiques des données. Par exemple : le prix de la maison contient les quatre caractéristiques de la longueur, de la largeur, de la superficie et du nombre de pièces de la maison. , la dimension est constituée de données en 4 dimensions, et les faits de longueur et de largeur. Les informations ci-dessus chevauchent les informations représentées par la zone = longueur × largeur. Les informations redondantes sont supprimées par réduction de dimensionnalité.
Compressez les données et améliorez l'efficacité de l'apprentissage automatique
Applications de données d'entreprise
apprentissage semi-supervisé
Comment utiliser un petit nombre d'échantillons étiquetés et un grand nombre d'échantillons non étiquetés pour des problèmes de formation et de classification
Identification des images
apprentissage par renforcement
Les sujets d'apprentissage portent des jugements sur la base des commentaires de leur environnement observé
Contrôle des robots
1.2 Processus et méthodes de base de l'exploration de données
méthode de base
Exploitation minière prédictive
Extrapoler sur les données actuelles pour faire des prédictions
exploitation minière descriptive
Caractériser les caractéristiques générales des données de la base de données (corrélation, tendance, clustering, anomalie...)
Organigramme d'exploration de données
Principales méthodes de data mining au collège de 6ème (P6)
Résumé récapitulatif de l'ensemble de données
Règles d'association de données
Une manière de décrire les connexions potentielles entre les données, généralement représentées par l'implication A-B
Classification et prédiction
regroupement
Détection hétérogène
modèle de série chronologique
1.3 Application de l'exploration de données
Entreprise
Santé et médecine
banque et assurance
réseaux sociaux
outil
Weka, Matlab, Java
Les informations pertinentes
sous-thème
Chapitre 2 Description et visualisation des données
2.1 Aperçu
Analyser les attributs et les valeurs des données → description et visualisation des données
2.2 Objets de données et types d'attributs
base de données
Composé d'objets de données
Base de données des ventes : clients, articles du magasin, ventes Base de données médicale : patient, informations sur le traitement Base de données universitaire : étudiants, professeurs, informations sur les cours
objet de données
Un objet de données représente une entité
Connu sous le nom : échantillon, exemple, instance, point de données, objet, tuple
Les attributs
une caractéristique d'un objet de données
le terme
Base de données : Dimension
Apprentissage automatique : fonctionnalités
Statistiques : Variables
Exploration de données, bases de données : propriétés
Classification
Propriétés nominales
Les valeurs d'attribut nominales sont des symboles ou des noms d'objets qui représentent des catégories et des noms.
Attribut nominal : couleur des cheveux, valeurs possibles : noir, blanc, marron Attribut nominal : État civil, valeurs possibles : marié, célibataire, divorcé, veuf
Attributs binaires (attributs nominaux spéciaux)
Il n'y a que deux catégories et statuts
binaire symétrique
La différence de taille des données est faible Exemple : Sexe – homme, femme
binaire asymétrique
La taille des données varie considérablement Exemple : Test médical – négatif, positif
propriétés ordinales
Il existe un ordre, mais la différence entre eux est inconnue. Il est généralement utilisé pour l'évaluation.
Titre d'enseignant, grade militaire, satisfaction client
Propriétés numériques
propriétés de mise à l'échelle des intervalles
Mesuré séquentiellement en unité de longueur
Propriétés de l'échelle de rapport
A un point zéro fixe, est ordonné et peut calculer des multiples
Attributs discrets et continus
2.3 Description statistique de base des données
mesure de tendance centrale
moyenne, médiane, mode
Diffusion des données métriques
Plage, quartile, plage quartile
Résumé à cinq chiffres, boîtes à moustaches et valeurs aberrantes
Variance, écart type
Représentation graphique des statistiques de base des données
Graphique quantile
Quantile - Graphique quantile
Histogramme
Hauteur - quantité, fréquence
Nuage de points
Découvrez les corrélations entre les attributs
2.4 Visualisation des données
définition
Exprimez efficacement les données via des graphiques
Trois méthodes de visualisation
Boîte à moustaches (boxplot)
Analyser les différences de dispersion de plusieurs données d'attributs
Peut afficher la distribution des données et afficher les valeurs aberrantes (doivent être supprimées)
Histogramme
Analyser la distribution des modifications d'un seul attribut à différents intervalles
Nuage de points
Afficher la distribution de corrélation entre deux ensembles de données
2.4.1 Visualisation basée sur les pixels
Un moyen simple de visualiser des valeurs unidimensionnelles consiste à utiliser des pixels dont la couleur reflète la valeur de cette dimension.
Convient aux valeurs unidimensionnelles, ne convient pas à la distribution de données spatiales multidimensionnelles
2.4.2 Visualisation par projection géométrique
Aidez les utilisateurs à découvrir des projections de données multidimensionnelles. Le principal défi de la technologie de projection géométrique est de comprendre comment visualiser un espace de grande dimension en deux dimensions.
Pour les points de données bidimensionnels, un nuage de points du système de coordonnées cartésiennes est généralement utilisé. Différentes couleurs ou formes peuvent être utilisées dans le nuage de points comme troisième dimension des données.
(Utilisé pour les ensembles de données tridimensionnelles) Nuages de points, matrices de nuages de points et visualisation de coordonnées parallèles (lorsque le nombre de dimensions est grand)
2.4.3 Visualisation basée sur des icônes
Représenter les valeurs de données multidimensionnelles avec un petit nombre d'icônes
Deux méthodes d'icônes couramment utilisées
Visage de Tchernov (permet la visualisation jusqu'à 36 dimensions)
Révéler les tendances des données
Les éléments tels que les yeux, la bouche et le nez du visage utilisent différentes formes, tailles, positions et directions pour représenter les valeurs de dimension.
Chaque visage représente un point de données à n dimensions (n≤18), et la signification des diverses caractéristiques du visage est comprise en identifiant de petites différences entre les visages.
dessin au trait de personnage
2.4.4 Visualisation hiérarchique
Divisez toutes les dimensions en sous-ensembles (c'est-à-dire sous-espaces) et visualisez ces sous-espaces de manière hiérarchique
Deux méthodes de visualisation hiérarchique couramment utilisées
Hiérarchie des sous-ensembles de l'axe Y de l'axe X
tableau numérique
2.4.5 Visualiser des objets et des relations complexes
Nuage de tags
2.5 Mesure de similarité et de dissimilarité des données
concept
Similarité
Mesure la similitude de deux objets de données. Plus la valeur est grande, plus ils sont similaires. La plage de valeurs habituelle est [0,1].
Dissemblance
Mesure le degré de différence entre deux objets de données. Plus la valeur est petite, plus les données sont similaires. La dissimilarité minimale est généralement de 0.
Proximité
Fait référence à une similitude ou une dissemblance
Fournit deux structures de données
Data Matrix (Objet - Matrice d'attributs)
Stockez n objets de données, chaque n objet de données a n lignes et p caractéristiques d'attribut ont p colonnes)
Matrice de dissimilarité (Objet - Matrice d'objet)
Valeur de dissimilarité utilisée pour stocker les objets de données
Généralement une matrice triangulaire
Mesure de proximité pour les attributs nominaux
Mesure de proximité pour les attributs binaires
Dissimilarité dans les attributs numériques
Plusieurs méthodes courantes pour calculer les mesures de distance pour la dissimilarité des objets d'attributs numériques
Distance euclidienne
distance de manhattan
Ou et Man satisfont simultanément les propriétés suivantes
Distance de Minkowski
Promotion d’Ouyuman
distance suprême
donne la valeur maximale de la différence entre les objets
Mesures de proximité pour les attributs ordinaux
Différence d'attributs mixtes
Chaque type d'attributs est divisé en groupe et une analyse d'exploration de données (telle qu'une analyse de cluster) est effectuée sur chaque type. Si ces analyses donnent les mêmes résultats, la méthode fonctionne, mais dans les applications pratiques, il est difficile d'obtenir les mêmes résultats pour chaque classification de type d'attribut.
Une meilleure approche : il suffit de faire une seule analyse, de combiner les différents attributs dans une seule matrice de dissimilarité et de transformer les attributs en un intervalle commun [0.0,0.1]
exemple
sous-thème
Similitude cosinus (il suffit de le comprendre)
Récupération de texte, exploration d'informations biologiques
Vecteur de document, vecteur de fréquence de mots
Les vecteurs de fréquence sont généralement longs et clairsemés (ont de nombreuses valeurs 0)
Chapitre 7 Machine à vecteurs de support
Classification des machines à vecteurs de support
Problème de classification binaire linéaire
Trouver l'hyperplan optimal
Chapitre 6 Classification et prédiction
6.1 Classement des données
variable continue
taille poids
Variables catégorielles
Variable catégorielle non ordonnée
Classement ordonné
Méthodes générales de classification des données
Classification, ordre, distance, ratio
6.2 Modèle d'arbre de décision
Générer un arbre de décision
Élaguer l’arbre de décision
6.2.1 Comment fonctionnent les arbres de décision
6.3 Modèle de classification bayésien
hypothèse maximale a posteriori
L'apprenant sélectionne l'hypothèse la plus probable h parmi l'ensemble d'hypothèses candidates H lorsqu'il reçoit les données D. h est appelée l'hypothèse postérieure maximale.
Il faut demander une probabilité conjointe
On suppose généralement que chaque attribut est distribué indépendamment et de manière identique.
Avant cela, des calculs de corrélation et des fusions doivent être effectués pour minimiser la corrélation entre les attributs.
Caractéristiques
Les attributs peuvent être discrets ou continus
Base mathématique solide et efficacité de classification stable
Insensible aux données manquantes, aux données bruitées et aux valeurs aberrantes
Si les attributs ne sont pas pertinents, l'effet de classification est très bon
6.4 Modèle discriminant linéaire
6.5 Modèle de régression logistique
6.6 Évaluation et sélection du modèle
Chapitre 5 Exploration des règles d'association
5.1 Aperçu
concept
L'exploration de règles d'association est utilisée pour explorer la corrélation entre les ensembles d'éléments dans la base de données de transactions et extraire toutes les règles d'association qui répondent aux exigences minimales de prise en charge et de confiance.
Les règles d'association sont utilisées pour trouver des dépendances potentiellement utiles entre des éléments de données dans de grandes quantités de données.
ensembles d'éléments fréquents
Ensemble d'éléments qui satisfait un minimum de support et un minimum de crédibilité
Soutien
Crédibilité
Des règles strictes
Des règles qui atteignent ou dépassent le minimum de soutien et de confiance
Principales étapes du data mining
Dans l'ensemble d'éléments du Big Data, recherchez le numéro d'occurrence ≥ ensemble d'éléments fréquents
À partir des éléments fréquents obtenus ci-dessus, établissez des règles d'association qui répondent aux conditions minimales de soutien et de crédibilité.
5.2 Classement
5.3 Étapes de recherche
5.4 Analyse de l'algorithme a priori
5.6 Généralisation des Règles d'Association (GRI)
première recherche en profondeur
5.7 Exploration approfondie des règles d'association
Chapitre 4 Réduction des données (Réduction des données)
4.1 Aperçu de la maintenance
Rationalisez les données au maximum tout en conservant l'apparence originale des données
4.2 Sélection des attributs et réduction numérique
Critères d'évaluation des attributs (P58)
mesure de cohérence
Le degré de cohérence entre deux attributs
Le degré de cohérence entre le niveau d’éducation et le niveau VIP
mesure de corrélation
La corrélation entre différents attributs fait référence à la relation entre eux
Corrélation entre le niveau d’éducation et le niveau VIP
Plus la corrélation entre deux attributs est élevée, plus la précision de la déduction de la valeur d’un attribut à partir de la valeur de l’autre attribut est élevée.
Mesure de la capacité de discrimination
La capacité d'un certain attribut à distinguer les enregistrements dans la base de données
mesure de l'information
Plus un attribut contient d’informations, plus il est important
La quantité d'informations est généralement mesurée par « l'entropie de l'information »
Méthode de sélection de sous-ensemble d'attributs
Sélectionnez avancer étape par étape
Définir la propriété cible sur vide
Chaque itération sélectionne le meilleur attribut parmi les attributs restants de l'ensemble de données d'origine et l'ajoute à l'ensemble d'attributs cible.
Supprimer l'attribut de l'ensemble de données d'origine
Répétez ce processus jusqu'à ce que l'ensemble cible réponde aux exigences.
sélection étape par étape en arrière
Attribuez d'abord l'ensemble d'attributs d'origine à l'ensemble d'attributs non cible
À chaque itération, l'attribut ayant le score global le plus mauvais est éliminé de l'ensemble d'attributs cible.
Répétez ce processus jusqu'à ce que l'ensemble d'attributs cible réponde aux exigences.
réduction numérique
Transformez les propriétés en variables pour réduire leur plage dynamique
Transformation de fonction simple
Standardisation des données
Discrétiser les attributs et les coder avec des entiers
Discrétisation de largeur égale, discrétisation de profondeur égale
Binaryiser l'attribut pour qu'il n'ait que deux valeurs
Si la valeur de l'attribut est un signal ou une image, un codage par compression peut également être effectué.
4.3 Régression linéaire
définition
L'étude de la relation entre une seule variable dépendante et une ou plusieurs variables indépendantes
utilité
La prédiction fait référence à l'utilisation de variables observées pour prédire les variables dépendantes
L'analyse causale traite la variable indépendante comme la cause de la variable dépendante.
régression linéaire
Régression multiple
régression non linéaire
Modéliser des données qui n'ont pas de dépendances linéaires
Utilisez la méthode de modélisation de régression polynomiale, puis effectuez une transformation de variable pour convertir le modèle non linéaire en modèle linéaire, puis résolvez-le à l'aide de la méthode des moindres carrés.
4.4 Analyse en composantes principales (analyse en composantes principales ACP)
Méthodes couramment utilisées pour la réduction de la dimensionnalité des données de grande dimension
Faites une combinaison linéaire de variables originales et reflètez la totalité ou la plupart des informations de la quantité originale à travers quelques variables combinées.
La variable combinée est la composante principale
Chapitre 3 Collecte et prétraitement des données (nettoyage, intégration, réduction, transformation)
3.1 Aperçu
Caractéristiques de la collecte de données massives
La première étape du cycle de vie du Big Data
Par rapport aux données traditionnelles, les données Big Data sont massives, diverses et hétérogènes.
De la collecte au traitement, le Big Data doit prendre en compte la cohérence, la disponibilité et la tolérance aux pannes de partition.
Méthodes de collecte de Big Data (comprendre)
Collecte de journaux de systèmes distribués
Collecte de données réseau
Robot d'exploration Web, API publique de site Web (interface de programmation d'application)
Inspection approfondie des paquets DPI
Inspection de profondeur/débit dynamique DFI
Collecte de données d'interface système spécifique
3.2 Objectif et tâches du prétraitement des données
But
Améliorer la qualité des données
mission principale
Nettoyage des données
Clarifier le bruit dans les données et corriger les incohérences
intégration de données
Consolidez les données de plusieurs sources de données dans un magasin de données cohérent, tel qu'un entrepôt de données
Transformation des données (telle que la normalisation)
Compresser les données en intervalles plus petits
3.3 Nettoyage des données
L'essence est un processus de modification du modèle de données
Chemin de nettoyage des données (comprendre)
1. Nettoyage des valeurs manquantes
Supprimer les valeurs manquantes
imputation moyenne
méthode de remplissage de cartes chaudes
méthode de remplissage de décision de distance la plus proche
imputation par régression
méthode d'imputation multiple
k : méthode du plus proche voisin
Approche bayésienne
2. Nettoyage des valeurs aberrantes (valeurs aberrantes, valeurs sauvages)
Définition et identification des valeurs aberrantes
Gestion des valeurs aberrantes
3. Nettoyage du contenu du format
4. Nettoyage des erreurs logiques
Supprimer les doublons
Supprimer les valeurs déraisonnables
5. Nettoyage des données non requis
6. Vérification de la pertinence
3.4 Intégration des données
concept
Intégration des données au sens traditionnel
Combinez les données de plusieurs magasins de données et stockez-les dans un seul magasin de données, tel qu'un entrepôt de données
Intégration des données au sens général
ETL : extraire, transformer, charger (vers la destination) C'est une partie importante de la construction d'un entrepôt de données
L'utilisateur extrait les données requises de la source de données, nettoie les données et enfin charge les données dans l'entrepôt de données selon le modèle d'entrepôt de données prédéfini.
Importance des modèles
Standardiser la définition des données pour obtenir un codage, une classification et une organisation unifiés
La redondance des données se produit souvent lors de l'intégration de plusieurs bases de données
Détecter les attributs redondants
analyse de corrélation
variables discrètes
Test du chi carré
Plus la valeur est grande, plus elle est pertinente
variable continue
Coefficient de corrélation
Égal à 1, -1, relation complètement linéaire
Supérieur à 0, corrélation positive
Égal à 0, il n'y a pas de corrélation linéaire
Inférieur à 0, corrélation négative
analyse de covariance
Supérieur à 0, corrélation positive
égal à 0, indépendance
Certaines données ont une covariance 0, mais ne sont pas indépendantes
Inférieur à 0, corrélation négative
Stratégie de réduction des données
Réduction de dimensionnalité
Scénarios nécessitant une réduction de dimensionnalité
Les données sont rares et ont des dimensions élevées
Les données de grande dimension adoptent une méthode de classification basée sur des règles
Utilisez des modèles complexes (tels que l'apprentissage profond), mais le nombre d'ensembles de formation est faible
Il faut visualiser
Méthode typique de réduction de dimensionnalité – analyse en composantes principales ACP
introduire
Il existe certaines corrélations entre de nombreux attributs dans les données.
Pouvez-vous trouver un moyen de combiner plusieurs attributs liés pour former un seul attribut ?
concept
Recombinez plusieurs attributs d'origine avec certaines corrélations (telles que les attributs p) en un ensemble d'attributs complets non liés pour remplacer les attributs d'origine. Habituellement, le traitement mathématique consiste à combiner linéairement les attributs originaux de p en tant qu'attributs globaux du demandeur.
Par exemple : les résultats des étudiants, la langue, les mathématiques, les affaires étrangères, l'histoire, la géographie, etc. sont divisés en deux attributs : les arts libéraux et les sciences.
Réduction des données - échantillonnage
compression des données
Réduisez la taille des données en réduisant leur qualité, comme les pixels
3.5 Transformation des données
Stratégie de transformation des données
Lissage, construction d'attributs, agrégation, normalisation, discrétisation, superposition de concepts
Méthodes de transformation de données couramment utilisées
Transformer les données grâce à la normalisation
discrétisation par binning
Discrétisation par regroupement d'histogrammes
Discrétisation via le clustering, les arbres de décision et l'analyse de corrélation
Stratification conceptuelle des données nominales
discrétisation
méthode de largeur égale
Méthode à fréquence égale
méthode de regroupement