Galerie de cartes mentales DBSCAN
Algorithme de regroupement de densité, y compris la définition, plusieurs concepts impliqués dans DBSCAN, les étapes de l'algorithme, Avantages et inconvénients de DBSCAN, etc.
Modifié à 2023-12-23 14:05:37Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.
DBSCAN
Introduction
Idée d'algorithme : Pour chaque point central, si la densité de sa zone adjacente est supérieure au seuil, ajoutez-le à un cluster proche de lui.
Plusieurs concepts impliqués dans DBSCAN
Voisinage Eps : étant donné un objet p et un rayon d, dessinez une boule avec l'objet p comme centre et rayon d :
Point central : étant donné un objet p et un nombre minpts, le nombre d'objets dans son voisinage est supérieur à minpts :
Point limite : étant donné un objet p et un nombre minpts, le nombre d'objets dans son voisinage est inférieur à minpts, mais il se trouve dans la zone d'autres points centraux.
Point aberrant : étant donné un objet p et un nombre minpts, le nombre d'objets dans son voisinage est inférieur à minpts, et il n'est pas dans la zone des autres points centraux.
Accessibilité directe de la densité : le point central de tout point de données dans son voisinage est directement accessible par la densité :
La densité est atteignable : du point central p à un point q de son voisinage, c'est-à-dire p->q ; n est appelé densité accessible
Densité connectée : S'il existe un point central o, o->p ; o->q, alors p et q sont dits densité connectée :
Étapes de l'algorithme
Étape 1 : Parcourir et marquer tous les points d'échantillonnage
Étape 2 : Sélectionnez n'importe quel point sans étiquette de cluster
Point central : intégrer tous les points d'échantillonnage avec une densité accessible dans un nouveau cluster
Point limite : ignorez le point limite et scannez le point d'échantillonnage suivant
Étape 3 : bouclez l'étape 2 jusqu'à ce que tous les points soient numérisés
Avantages et inconvénients de DBSCAN
avantage
Pas sensible au bruit
Des groupes de formes arbitraires peuvent être trouvés
Pas besoin de définir manuellement le nombre de clusters
défaut
Le modèle est très sensible aux paramètres Eps et minpts
Lorsque la densité des données est inégale et que l’espacement des clusters diffère considérablement, la qualité du clustering est médiocre.
optimisation
Pour les problèmes sensibles aux paramètres
Méthode : en introduisant la distance centrale et la distance accessible, l'algorithme de clustering est rendu insensible aux paramètres d'entrée. Autrement dit, l'algorithme OPTICS
OPTIQUE
Idée d'algorithme : calculer la distance accessible de tous les échantillons pour compenser la sensibilité du paramètre Eps
plusieurs notions
Distance centrale : la distance minimale qui satisfait les minpts
Distance accessible : la plus petite valeur de la distance euclidienne entre le point d'échantillonnage et le point central et la distance centrale du point central
Étapes de l'algorithme
Étape 1 : Étant donné l'ensemble de données D, créez deux files d'attente, la file d'attente ordonnée O et la file d'attente de résultats R (la file d'attente ordonnée est utilisée pour stocker les objets de base et leurs objets directs de densité, et sont disposées par ordre croissant par distance accessible ; Le résultat La file d'attente est utilisée pour stocker l'ordre de sortie des points d'échantillonnage. La file d'attente ordonnée peut être comprise comme les données à traiter, tandis que la file d'attente des résultats contient les données traitées.)
Étape 2 : Si tous les points de D ont été traités ou s’il n’y a aucun point central, l’algorithme se termine. Sinon, sélectionnez un point échantillon p qui n'est pas traité (c'est-à-dire pas dans la file d'attente des résultats R) et qui est un objet principal, placez d'abord p dans la file d'attente des résultats R et supprimez p de D. Trouvez ensuite toutes les densités de p dans D directement au point d'échantillonnage x et calculez la distance accessible de x à p Si x n'est pas dans la file d'attente ordonnée O, mettez x et la distance accessible dans O. Si x est dans O. , puis si la nouvelle distance accessible de x est plus petite, mettez à jour la distance accessible de x et enfin réorganisez les données dans O en fonction de la distance accessible de petite à grande.
Étape 3 : Si la file d'attente ordonnée O est vide, revenez à l'étape 2, sinon retirez le premier point d'échantillonnage y en O (c'est-à-dire le point d'échantillonnage avec la plus petite distance accessible), placez-le dans R et supprimez-le de D et O suppriment y. Si y n'est pas un objet central, répétez l'étape 3 (c'est-à-dire trouvez le point d'échantillonnage avec la plus petite distance accessible des données restantes dans O) ; si y est un objet central, trouvez toutes les densités de y dans D qui atteignent le échantillonnez des points et calculez la distance accessible, puis suivez l'étape 2 pour mettre à jour la densité de tous y jusqu'aux points d'échantillonnage dans O
Étape 4 : Répétez les étapes 2 et 3 jusqu'à la fin de l'algorithme, et obtenez enfin un résultat de sortie ordonné et la distance accessible correspondante.
Par exemple
L'ensemble de données connu est présenté dans la figure :
Étape 1 : calculez la distance accessible entre le point central et les autres points
Étape 2 : Triez la distance accessible, sélectionnez des points d'échantillonnage plus petits et répétez la première étape :
Étape 3 : affichez les objets principaux et leurs distances accessibles, et divisez-les en clusters : [0, 1, 3, 6, 5, 2, 4], distances accessibles : [inf, 3.16227766, 4.12310563, 1.41421356, 1. ,3.60555128, 1.41421356]