Galerie de cartes mentales la reconnaissance de formes
Également appelé machine learning ou data mining. Il comprend principalement l'introduction, le prétraitement des données, l'analyse groupée, la classification bayésienne, la méthode du plus proche voisin, etc.
Modifié à 2024-02-04 00:51:57Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
la reconnaissance de formes
introduction
Concepts de base de la reconnaissance de formes
la reconnaissance de formes
Utiliser des ordinateurs pour réaliser la capacité de reconnaissance de formes des gens est une technologie qui utilise des ordinateurs pour réaliser l'analyse, la description, le jugement et l'identification par les gens de diverses choses ou phénomènes, et attribue les éléments à reconnaître à diverses catégories de modèles.
La reconnaissance des formes peut être considérée comme le mappage des modèles aux catégories
modèle
Informations sur une substance ou un phénomène
D'une manière générale, les objets observables qui existent dans le temps et dans l'espace peuvent être appelés des modèles s'ils peuvent être distingués comme étant identiques ou similaires.
Un modèle est une description d'un objet formée grâce à la collecte d'informations. Cette description doit être standardisée, compréhensible et identifiable.
illustrer
Un modèle n’est pas la chose elle-même, mais l’information obtenue à partir de la chose. Par exemple, les photos et les informations personnelles des personnes
Peut distinguer si les modèles sont similaires (pertinents pour la question)
Les modèles sont généralement représentés par des vecteurs et les indices peuvent refléter des caractéristiques temporelles, des caractéristiques spatiales ou d'autres identifiants.
vecteur de modèle
Informations avec distribution temporelle et spatiale obtenues en observant des éléments individuels spécifiques (appelés échantillons ou vecteurs d'échantillons)
Classe de modèle
La catégorie à laquelle appartient un modèle ou la population de modèles dans la même catégorie (catégorie en abrégé)
système de reconnaissance de formes
Se compose de deux processus : conception et mise en œuvre
La catégorie à laquelle appartient un modèle ou la population de modèles dans la même catégorie (catégorie en abrégé)
Conception (formation, apprentissage)
Fait référence à l'utilisation d'un certain nombre d'échantillons (appelés ensemble d'apprentissage ou ensemble d'apprentissage) pour concevoir un classificateur
Réalisation (prise de décision, classement, jugement)
Désigne l'utilisation du classificateur conçu pour prendre des décisions de classification pour les échantillons à identifier.
Composition du système
Collecte de données (acquisition de données)
Chemin
Grâce à divers capteurs, des informations telles que la lumière ou le son sont converties en informations électriques, ou des informations textuelles sont saisies dans l'ordinateur.
Classification
Formes d'onde unidimensionnelles : ondes sonores, électrocardiogramme, électroencéphalogramme, etc.
Images bidimensionnelles : texte, images, etc.
Images 3D : visages, etc.
Quantités physiques : taille de la personne, poids, poids du produit, niveau de qualité, etc.
Quantité logique (0/1) : présence ou absence, masculin et féminin, etc.
prétraitement
But
Supprimez le bruit et améliorez les informations utiles
Techniques couramment utilisées
Filtrage et débruitage unidimensionnels du signal, lissage, amélioration, restauration, filtrage d'images, etc.
Extraction et sélection de fonctionnalités
But
À partir des données originales, obtenez les caractéristiques qui reflètent le mieux la nature de la classification.
Formation de fonctionnalités
Par divers moyens, plusieurs caractéristiques reflétant le problème de classification sont obtenues à partir des données originales (parfois une standardisation des données est requise)
Sélection de fonctionnalité
Sélectionnez plusieurs fonctionnalités les plus utiles à la classification parmi les fonctionnalités
Extraction de caractéristiques
Réduire le nombre de fonctionnalités grâce à certaines transformations mathématiques
Décision de classification ou correspondance de modèle
Utiliser des règles de décision dans l'espace des fonctionnalités pour attribuer l'objet reconnu à une certaine catégorie
illustrer
Cette structure de système convient à la reconnaissance de formes statistiques, à la reconnaissance de formes floues et aux méthodes supervisées dans les réseaux neuronaux artificiels.
Pour les méthodes de reconnaissance de formes structurelles, seule l’extraction primitive est utilisée pour remplacer l’extraction et la sélection de caractéristiques.
Pour l'analyse groupée, la conception du classificateur et la prise de décision sont intégrées en une seule étape.
Caractéristiques des images
couleur
texture
forme
Relations spatiales
quatre espaces
Trois tâches majeures
Collection de modèles
Extraction de fonctionnalités et sélection de fonctionnalités
Discrimination de type
Questions connexes
Évaluation des performances
Taux d'erreur de test ou taux d'erreur
complexité informatique
diviser
Base de classification
Nature de la question ou de l'échantillon
Reconnaissance de formes supervisée
Ayez d'abord un lot d'échantillons avec des étiquettes de catégorie, concevez un classificateur basé sur l'ensemble d'échantillons, puis déterminez la nouvelle catégorie d'échantillon.
Reconnaissance de formes non supervisée
Il n'y a qu'un seul lot d'échantillons et l'ensemble d'échantillons est directement divisé en plusieurs catégories en fonction des similitudes entre les échantillons.
méthode principale
reconnaissance statistique des formes
Classification
classification non supervisée
L'analyse par grappes
Classement surveillé
Classement des collections
Classification probabiliste
Décrire la méthode
Vecteur de caractéristiques
Détermination du mode
Exprimé par la distribution de probabilité conditionnelle P (X/i), il existe m distributions dans m catégories, puis déterminez à quelle distribution appartient le modèle inconnu.
Base théorique
théorie des probabilités
statistiques mathématiques
avantage
Plus mature
Capable de considérer l’impact des bruits parasites
Forte capacité à reconnaître les primitives de modèles
défaut
Il est difficile d'extraire des caractéristiques de modèles aux structures complexes
Il ne peut pas refléter les caractéristiques structurelles du motif et il est difficile de décrire la nature du motif.
Difficulté à considérer les questions d’identification dans une perspective holistique
Reconnaissance de modèles structurels
reconnaissance de formes floues
méthode de réseau neuronal
Base théorique
Neurophysiologie
psychologie
Méthode de description du modèle
Un ensemble de nœuds d'entrée représentés par différents niveaux d'activité
Détermination du mode
système dynamique non linéaire
méthode principale
Modèle BP, modèle HOPField
avantage
Résoudre efficacement des problèmes non linéaires complexes
Permettre aux échantillons d'avoir des défauts et des distorsions plus importants
défaut
Manque de théorie d’apprentissage efficace
longue durée
Zone d'application
Images, visages, textes, chiffres, empreintes digitales, voix...
question fondamentale
Méthode de représentation de modèle (échantillon)
vecteur de colonne à n dimensions
x= (x1, x2, …, xn)T
Compacité des classes de modèles
point critique (échantillon)
Dans un ensemble d'échantillons multicatégories, lorsque les valeurs caractéristiques de certains échantillons changent légèrement, ils deviennent une autre catégorie d'échantillons. Ces échantillons sont appelés échantillons critiques (points).
ensemble ferme
définition
La distribution des échantillons d’une même classe de modèles est relativement concentrée, avec peu ou pas d’échantillons critiques. De telles classes de modèles sont appelées ensembles compacts.
nature
Très peu de points critiques
Une ligne reliant deux points quelconques dans un ensemble. Les points de la ligne appartiennent au même ensemble.
Chaque point de l’ensemble possède un voisinage suffisamment grand, et le voisinage ne contient que des points du même ensemble.
Exiger
satisfait l'étanchéité
similarité
Exprimer la similarité en utilisant différentes distances
Distance commune
Distance de Minkowski
Distance en valeur absolue ou distance urbaine ou distance de Manhattan (q=1)
Distance euclidienne (q=2)
Distance en damier ou distance de Chebyshev (q=∞)
Distance de Mahalanobis
où la matrice de covariance et la moyenne sont
Standardisation des données
But
Éliminer l'impact de la plage numérique entre chaque composant sur l'algorithme
méthode
Standardiser à [0,1] ou [-1, 1], normalisation de la variance
formule
Normalisation des fonctionnalités
Normalisation des écarts
Prétraitement des données
Pourquoi effectuer un prétraitement des données ?
pas bon
incomplet
Il y a un manque de valeurs appropriées lors de la collecte de données
Différentes considérations lors de la collecte et de l'analyse des données
Problèmes humains/matériels/logiciels
bruyant
Problèmes avec les outils de collecte de données
Erreur humaine/informatique lors de la saisie des données
Erreurs dans la transmission des données
Types de données incohérents
différentes sources de données
dépendance fonctionnelle violée
bien
Exactitude : par exemple si c'est correct, exact ou non, etc.
exhaustivité : si des données sont manquantes ou ne peuvent pas être obtenues
Cohérence : si certaines données ont été modifiées mais d'autres non
Fiabilité : décrit le degré de confiance dans l'exactitude des données.
Tâche
Nettoyage des données
Remplissez les valeurs manquantes, lissez les données bruitées, identifiez et supprimez les valeurs aberrantes et résolvez les incohérences
intégration de données
Intégrez plusieurs bases de données, cubes de données ou fichiers
Transformation et discrétisation des données
Standardiser
Génération hiérarchique de concepts
Réduction de donnée
Réduction dimensionnelle
Réduction de quantité
compression des données
Extraction de fonctionnalités et sélection de fonctionnalités
Nettoyage des données
❑ Remplissez les valeurs manquantes
raison
❑ Anomalie de l'équipement
❑ Supprimé en raison d'une incohérence avec d'autres données existantes
❑ Données non saisies en raison d'une incompréhension
❑ Certaines données n'ont pas été saisies parce qu'elles n'ont pas été prises au sérieux lors de la saisie.
❑ Aucune journalisation des modifications de données
traiter avec
◼ Ignorer les tuples : cela est généralement effectué lorsque l'étiquette de classe est manquante (en supposant que la tâche d'exploration de données est conçue pour classer ou décrire), lorsque le pourcentage de valeurs manquantes pour chaque attribut change (la tâche est conçue pour classer ou décrire), lorsque le pourcentage de valeurs manquantes pour chaque attribut varie considérablement, son effet est très faible.
« Étiquette de classe » (Étiquette de classe ou Étiquette cible) fait généralement référence à « l'étiquette utilisée pour représenter la classe ou le groupe auquel appartient l'échantillon » dans l'ensemble de données.
◼ Remplir manuellement les valeurs manquantes : charge de travail importante et faible faisabilité
◼ Remplissez automatiquement les valeurs manquantes
❑ Utilisez une variable globale : telle que inconnue ou -∞
❑ Utiliser des moyennes d'attributs
❑ Utiliser la moyenne ou la médiane de tous les échantillons appartenant à la même classe que le tuple donné
❑ Remplissez les valeurs manquantes avec les valeurs les plus probables : en utilisant des méthodes basées sur l'inférence comme la formule bayésienne ou les arbres de décision
❑ Données de bruit fluides
raison
❑ Problèmes avec les outils de collecte de données
❑ Erreurs de saisie de données
❑ Erreur de transmission des données
❑ Limites techniques
❑ Incohérence dans les règles de dénomination
traiter avec
regroupement
Triez d'abord les données et divisez-les en compartiments de même profondeur. Vous pouvez ensuite lisser au moyen du bac, lisser par la médiane du bac, lisser par la limite du bac, etc.
fonctionner
Regroupement à profondeur égale
Lissage des valeurs limites : transformez toutes les valeurs en valeurs maximales ou minimales
Regroupement de largeur égale
[110,155), gauche fermé et droit ouvert
regroupement
Détecter et supprimer les valeurs aberrantes grâce au clustering
retour
Lisser les données en les ajustant à une fonction de régression
❑ Identifier ou supprimer les valeurs aberrantes
❑ Résoudre les incohérences dans les données
intégration de données
◼ Intégration des données :
❑ Consolider les données de plusieurs sources de données dans un magasin cohérent
◼ Intégration de modèles :
❑ Intégrer les métadonnées de différentes sources de données
◼ par exemple A.cust_id = B.customer_no
◼ Problèmes de reconnaissance d'entités :
❑ Faites correspondre des entités du monde réel provenant de différentes sources de données
◼ par exemple Bill Clinton = William Clinton
◼ Détecter et résoudre les conflits de valeurs de données
❑ Pour la même entité dans le monde réel, les valeurs d'attribut provenant de différentes sources de données peuvent être différentes
❑ Raisons possibles : représentation différente des données, mesures différentes, etc.
Réduction de donnée
But
◆L'analyse de données complexes sur le contenu d'une base de données à grande échelle prend souvent beaucoup de temps, ce qui rend l'analyse des données originales irréaliste et irréalisable ;
◆Réduction des données : la réduction ou la réduction des données consiste à réduire la taille des données extraites sans affecter les résultats finaux de l'extraction.
◆Des techniques de réduction des données peuvent être utilisées pour obtenir une représentation réduite de l'ensemble de données, qui est beaucoup plus petit mais reste proche du maintien de l'intégrité des données d'origine.
◆L'exploitation d'un ensemble de données réduit peut augmenter l'efficacité de l'exploitation minière et produire les mêmes (ou presque) résultats.
standard
◆Le temps consacré à la réduction des données ne doit pas dépasser ou « compenser » le temps économisé lors de l'exploration de l'ensemble de données réduit.
◆Les données obtenues par réduction sont beaucoup plus petites que les données originales, mais peuvent produire des résultats d'analyse identiques ou presque.
méthode
◆Agrégation de cubes de données ;
Agrégez des cubes de données à n dimensions en cubes de données à n dimensions.
◆Réduction de dimension (réduction d'attribut);
Recherchez l'ensemble minimum d'attributs pour garantir que la distribution de probabilité du nouvel ensemble de données est aussi proche que possible de la distribution de probabilité de l'ensemble de données d'origine.
APC
◆Compression des données ;
compression sans perte
La compression avec perte
◆Réduction numérique ;
Réduisez le volume de données en choisissant des représentations de données alternatives et plus petites.
taper
Histogramme
regroupement
échantillonnage
◆Discrétisation et génération hiérarchique des concepts.
Standardiser
normalisation min-max
ça doit être correct
Normalisation du score z (normalisation à moyenne nulle)
Peut être négatif
discrétisation
But
La discrétisation des données est le processus de division des valeurs de données continues en plusieurs intervalles pour simplifier la complexité de l'ensemble de données d'origine.
taper
Valeurs dans un ensemble non ordonné ; par exemple, couleur, profession
Valeurs dans un ensemble ordonné : par exemple, grade militaire, titre professionnel ;
Valeurs continues ; par exemple, nombres réels
superposition de concepts
L'analyse par grappes
concept
Pensée
Classez chaque modèle classé en fonction d'une certaine mesure de similarité.
Regroupez les similaires dans une seule catégorie
algorithme
Méthode de clustering simple basée sur le seuil de similarité et le principe de distance minimale
Une méthode de fusion continue de deux catégories selon le principe de distance minimale
Méthode de clustering dynamique basée sur une fonction critère
application
L'analyse cluster peut être utilisée comme étape de prétraitement pour d'autres algorithmes
Peut être utilisé comme outil indépendant pour obtenir la distribution des données
L'analyse de cluster peut compléter l'exploration de points isolés
Méthodes de clustering basées sur les partitions
La méthode de partitionnement consiste à diviser les objets de données en sous-ensembles (clusters) qui ne se chevauchent pas afin que chaque objet de données se trouve exactement dans un sous-ensemble.
Classification
type de distance
Distance euclidienne
distance de manhattan
Distance de Minkowski
La distance minimale n'est pas une distance, mais un ensemble de définitions de distance.
Type d'algorithme
Algorithme k-moyennes (K-moyennes)
Entrée : le nombre de clusters k et la base de données D contenant n objets
Résultat : k clusters qui minimisent le critère d’erreur quadratique.
Étapes de l'algorithme
1. Déterminez un centre de cluster initial pour chaque cluster, de sorte qu'il y ait K centres de cluster initiaux. 2. Les échantillons de l'ensemble d'échantillons sont attribués aux grappes voisines les plus proches selon le principe de distance minimale. 3. Utilisez la moyenne de l'échantillon dans chaque grappe comme nouveau centre de grappe. 4. Répétez les étapes 2 et 3 jusqu'à ce que le centre du cluster ne change plus. 5. A la fin, K clusters sont obtenus.
Caractéristiques
avantage
Simple et rapide
Évolutif et efficace
L'effet est meilleur lorsque l'ensemble de résultats est dense
défaut
Ne peut être utilisé que si la moyenne du cluster est définie
k doit être donné à l'avance
Elle est très sensible à la valeur initiale et affecte directement le nombre d'itérations.
Ne convient pas à la recherche de clusters de formes non convexes ou de clusters de tailles très variables.
Est sensible au « bruit » et aux données aberrantes
Améliorer
Algorithme k-mode : réalise un regroupement rapide de données discrètes, conserve l'efficacité de l'algorithme k-means et étend le champ d'application de k-means aux données discrètes.
Algorithme k-prototype : il peut regrouper des données qui sont un mélange d'attributs discrets et numériques. Dans le k-prototype, une métrique de dissimilarité est définie qui calcule à la fois les attributs numériques et discrets.
Algorithme k-Mediods (K-Mediods) : L'algorithme k-means est sensible aux points isolés. Afin de résoudre ce problème, au lieu d'utiliser la valeur moyenne du cluster comme point de référence, vous pouvez choisir l'objet le plus central du cluster, c'est-à-dire le point central comme point de référence. Cette méthode de division repose toujours sur le principe de minimiser la somme des dissemblances entre tous les objets et leurs points de référence.
Algorithme k-médoïdes (point central K)
Entrée : le nombre de clusters k et une base de données contenant n objets.
Résultat : k clusters
Étapes de l'algorithme
1. Déterminez un centre de clustering initial pour chaque cluster, de sorte qu'il y ait k centres de clustering initiaux. 2. Calculez les distances entre tous les autres points et les k points centraux et considérez le cluster le plus court de chaque point aux k points centraux comme le cluster auquel il appartient. 3. Sélectionnez les points dans l'ordre dans chaque cluster, calculez la somme des distances de ce point à tous les points du cluster actuel, et le point avec la plus petite somme de distance finale est considéré comme le nouveau point central. 4. Répétez les étapes 2 et 3 jusqu'à ce que les points centraux de chaque cluster ne changent plus. 5. Fin, k clusters sont obtenus.
Caractéristiques
avantage
L'algorithme K-medoids calcule le point avec la plus petite somme de distances entre un certain point et tous les autres points. L'influence de certaines données isolées sur le processus de regroupement peut être réduite en calculant la plus petite somme de distances. Cela rend l'effet final plus proche de la véritable division.
défaut
Par rapport à l'algorithme K-means, il augmentera la quantité de calcul d'environ O(n), donc en général, l'algorithme K-médoïdes est plus adapté aux opérations de données à petite échelle.
Algorithme de clustering basé sur la hiérarchie
définition
Créez une arborescence clusterisée d'objets de données. Selon que la décomposition hiérarchique est formée de bas en haut ou de haut en bas, elle peut être divisée en clustering hiérarchique agglomératif et clustering hiérarchique de division.
cœur
Comment mesurer la distance entre deux clusters, où chaque cluster est généralement un ensemble d'objets.
Classification
Type de distance (méthode de mesure de la distance inter-clusters)
Type d'algorithme
AGNES (clustering hiérarchique agglomératif)
définition
AGNES (clustering hiérarchique agglomératif) est une stratégie ascendante qui traite d'abord chaque objet comme un cluster, puis fusionne ces clusters atomiques en clusters de plus en plus grands jusqu'à ce qu'une certaine condition terminale soit remplie.
Similarité
La similarité entre deux clusters est déterminée par la similarité des paires de points de données les plus proches dans les deux clusters différents.
étape
1. Traitez chaque objet comme un cluster initial ; 2. RÉPÉTER ; 3. Recherchez les deux clusters les plus proches en fonction des points de données les plus proches dans les deux clusters ; 4. Fusionnez deux clusters pour générer un nouvel ensemble de clusters ; 5. JUSQU'À ce qu'il atteigne le nombre de clusters définis ;
DIANA (clustering hiérarchique divisé)
BIRCH (Réduction itérative équilibrée et clustering utilisant des méthodes hiérarchiques)
méthode de regroupement par densité
cœur
Tant que la densité de points dans une zone est supérieure à une certaine valeur seuil, elle est ajoutée à un cluster qui lui est similaire.
Classification
DBSCAN
cœur
Différent des méthodes de partitionnement et de regroupement hiérarchique, il définit les clusters comme le plus grand ensemble de points connectés par densité, peut diviser les zones ayant une densité suffisamment élevée en clusters et peut trouver des clusters de formes arbitraires dans des bases de données spatiales « bruyantes ».
définition
ε-voisinage d'un objet : la zone située dans le rayon ε d'un objet donné.
Objet principal (point central) : si le voisinage ε d'un objet contient au moins le nombre minimum d'objets MinPts, l'objet est appelé objet principal.
Accessibilité directe de la densité : étant donné un ensemble d'objets D, si p est dans le voisinage ε de q et q est un objet central, nous disons que l'objet p est directement accessible en densité à partir de l'objet q.
Accessibilité de la densité : S'il y a des points centraux P2, P3,..., Pn, et que la densité de P1 à P2 est directe, et que la densité de P2 à P3 est directe,..., la densité de P(n-1 ) à Pn est directe, et la densité de Pn à Q est directe, alors la densité de P1 à Q est atteignable. La densité réalisable n’a pas non plus de symétrie.
Densité connectée : s'il existe un point central S tel que S à P et Q sont tous deux une densité accessible, alors P et Q sont connectés à la densité. La connexion de densité a une symétrie. Si P et Q sont connectés par densité, alors Q et P doivent également être connectés par densité. Deux points densément connectés appartiennent au même cluster.
Bruit : un cluster basé sur la densité est le plus grand ensemble d'objets connectés à la densité en fonction de l'accessibilité de la densité. Les objets qui ne sont inclus dans aucun cluster sont considérés comme du « bruit ».
étape
1) Si le voisinage du point contient plus de points MinPts, c'est un point central, sinon le point est temporairement enregistré comme point de bruit 2) Trouvez tous les objets dont la densité est accessible à partir de ce point pour former un cluster
Caractéristiques
avantage
Le clustering est rapide et peut gérer efficacement les points de bruit et découvrir des clusters spatiaux de formes arbitraires.
défaut
(1) Lorsque la quantité de données augmente, une mémoire plus grande est nécessaire pour prendre en charge la consommation d'E/S, qui consomme également beaucoup de données ; (2) Lorsque la densité du regroupement spatial est inégale et que l'espacement des regroupements diffère considérablement, la qualité du regroupement est médiocre. (3) Il existe deux paramètres initiaux ε (rayon du quartier) et minPts (nombre minimum de points dans le quartier ε) qui nécessitent que l'utilisateur définisse manuellement l'entrée, et les résultats du clustering sont très sensibles aux valeurs de ces deux paramètres. . Différentes valeurs produiront des résultats de clustering différents.
OPTIQUE
DENCLÉ
Classification bayésienne
Bayes naïf
La méthode Bayes est une méthode de classification de modèles lorsque la probabilité a priori et la probabilité conditionnelle de classe sont connues. Le résultat de la classification de l'échantillon à diviser dépend du nombre total d'échantillons dans divers domaines.
Naive Bayes suppose que tous les attributs de fonctionnalités sont indépendants les uns des autres, c'est pourquoi le mot « naïf » dans le nom de l'algorithme vient de
En réalité, il existe souvent des dépendances entre attributs, mais ce qui est intéressant c'est que même lorsque l'hypothèse d'indépendance de l'algorithme Naive Bayes n'est évidemment pas vraie, il peut quand même obtenir de très bons résultats de classification.
Formule bayésienne
taux d'erreur minimal
Les fonctionnalités sont des informations fournies
La catégorie est l'exigence finale
Lorsqu'il existe plusieurs attributs de fonctionnalité
signification
Probabilité a posteriori P(cj |x)
C'est-à-dire la probabilité que cj soit vrai lorsqu'on lui donne un échantillon de données x, et c'est ce qui nous intéresse (à calculer)
Chaque P(xk|Ci) peut être obtenu grâce à des connaissances préalables Ou effectuez des statistiques via des ensembles d'échantillons
Probabilité a priori P(cj)
La probabilité a priori P(Ci) peut être obtenue grâce à des connaissances a priori Ou effectuez des statistiques via des ensembles d'échantillons
P(x) peut être éliminé ou formulé
Simplification
risque minime
table de décision
Méthode de calcul
Pour chaque décision α, calculer séparément
Prendre la décision avec le moins de risque conditionnel
méthode du voisin le plus proche
Méthode du voisin le plus proche/méthode du voisin le plus proche K
But
Déterminer le classement d'un point
Idées
Recherchez les k instances de formation les plus proches de la nouvelle instance dans l'ensemble de données de formation, puis comptez la classe avec le plus grand nombre de classes parmi les k instances de formation récentes, qui est la classe de la nouvelle instance.
processus
Calculez la distance entre chaque point d'échantillonnage de l'échantillon d'apprentissage et l'échantillon de test (les mesures de distance courantes incluent la distance euclidienne, la distance de Mahalanobis, etc.)
Trier toutes les valeurs de distance ci-dessus
Sélectionnez les k premiers échantillons avec la plus petite distance
Votez en fonction des étiquettes de ces k échantillons pour obtenir la catégorie de classement final
Choix de la valeur k
Plus la valeur k est petite, plus le modèle est complexe et plus il est facile de le surajuster. Cependant, plus la valeur k est grande, plus le modèle est simple. Si k = N, cela signifie que quel que soit le point, c'est la classe. avec le plus de catégories dans l’ensemble de formation. Par conséquent, k prendra généralement une valeur plus petite et utilisera ensuite la validation croisée pour déterminer La soi-disant validation croisée consiste ici à diviser une partie de l'échantillon en échantillons de prédiction, tels qu'un entraînement à 95 % et une prédiction à 5 %, puis k prend respectivement 1, 2, 3, 4, 5 et similaires pour prédire et calculez l’erreur de classification finale Choisissez k avec la plus petite erreur.
la différence
K-Moyennes
Le but est de diviser une série d'ensembles de points en k catégories
K-Means est un algorithme de clustering
Apprentissage non supervisé, regroupant des données similaires pour obtenir une classification, pas de classification externe
L'ensemble de données d'entraînement n'a pas d'étiquettes et est désordonné. Après le regroupement, il devient quelque peu ordonné au début, puis ordonné.
Méthode du voisin le plus proche/méthode du voisin le plus proche K
Le but est de déterminer le classement d'un point
KNN est un algorithme de classification
Apprentissage supervisé, l'objectif de classification est connu à l'avance
L'ensemble de données d'entraînement a une étiquette, qui correspond à des données tout à fait correctes.
Règles d'association
définition
concept de base
Objet : Par exemple, le cola, les chips, le pain, la bière et les couches sont tous appelés des objets.
Soit I={i1, i2,…,im} l'ensemble de tous les éléments (Item).
La transaction T est un enregistrement d'achat, et chaque transaction T possède un identifiant unique, enregistré comme Tid.
D est l'ensemble de toutes les transactions.
Itemset est l’ensemble que nous voulons étudier
Le nombre d'éléments dans un ensemble d'éléments est appelé la longueur de l'ensemble d'éléments, et un ensemble d'éléments contenant k éléments est appelé un K-itemset.
Règles d'association
Une implication logique de la forme A->B, où ni A ni B ne sont vides, et A⸦I, B⸦I et (A croise B=vide).
AssistanceAssistance
Décrire la probabilité que les ensembles d'éléments A et B apparaissent simultanément dans toutes les transactions D
S(UNE->B)=P(AB)=|AB|/|D|
Le soutien est une mesure de l’importance des règles d’association
ConfianceConfiance
Dans l'objet T dans lequel l'ensemble d'éléments A apparaît, la probabilité que l'ensemble d'éléments B apparaisse également en même temps.
C(UNE->B)=P(B|UNE)=|AB|/|UNE|
La confiance est une mesure de l'exactitude des règles de l'association
Des règles d'association fortes
Les règles d'association selon lesquelles D satisfait au support minimum et à la crédibilité minimale sur I sont appelées règles d'association fortes.
Ascenseur
Le degré de portance indique l’influence de l’apparence de l’ensemble d’éléments A sur l’apparence de l’ensemble d’éléments B.
L(A->B)=P(AB)/(P(A)*P(B))
Supérieur à 1
Correlation positive
égal à 1
Indépendant
Moins que 1
corrélation négative
ensembles d'éléments fréquents
Les ensembles d'éléments qui satisfont au support minimum sont appelés ensembles d'éléments fréquents. L'ensemble des k-itemsets fréquents est généralement noté Lk
But
Trouver des règles d'association solides basées sur un support minimum et une confiance minimum spécifiés par l'utilisateur
étape
Recherchez tous les ensembles d'éléments fréquents ou les ensembles d'éléments fréquents les plus importants en fonction du support minimum de l'utilisateur.
Trouver des règles d'association dans des ensembles d'éléments fréquents en donnant un minimum de crédibilité à l'utilisateur
algorithme
Algorithme a priori
La première étape consiste à récupérer par itération tous les ensembles d'éléments fréquents dans la base de données de transactions, c'est-à-dire les ensembles d'éléments dont la prise en charge n'est pas inférieure au seuil défini par l'utilisateur ;
Objets fréquents : compter, compter S
La deuxième étape utilise des ensembles d'éléments fréquents pour construire des règles qui satisfont le niveau de confiance minimum de l'utilisateur.
Règles d'association : compte C
FP-Croissance