Connexion
Connexion

DBSCAN

Algorithme de regroupement de densité, y compris la définition, plusieurs concepts impliqués dans DBSCAN, les étapes de l'algorithme, Avantages et inconvénients de DBSCAN, etc.

Modifié à 2023-12-23 14:05:37

WSrx009v

Œuvres récentes Afficher plus d'œuvres>>

Cent ans de solitude - Tableau des relations entre les personnages
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Cent ans de solitude - Tableau des relations entre les personnages
Cent ans de solitude est le chef-d'œuvre de Gabriel Garcia Marquez. La lecture de ce livre commence par l'analyse des relations entre les personnages, qui se concentre sur la famille Buendía et raconte l'histoire de la prospérité et du déclin de la famille, de ses relations internes et de ses luttes politiques, de son métissage et de sa renaissance au cours d'une centaine d'années.
Modèle de processus de gestion de projet
La gestion de projet est le processus qui consiste à appliquer des connaissances, des compétences, des outils et des méthodologies spécialisés aux activités du projet afin que celui-ci puisse atteindre ou dépasser les exigences et les attentes fixées dans le cadre de ressources limitées. Ce diagramme fournit une vue d'ensemble des 8 composantes du processus de gestion de projet et peut être utilisé comme modèle générique.

DBSCAN

WSrx009v

Œuvres récentes Afficher plus d'œuvres>>

Recommandé pour vous
Contour

Obstétrique et gynécologie (1)-Anatomie et grossesse
- 28
WSrx009v
Un apprentissage efficace
- 5
WSrx009v
Manuel d'efficacité de la vie apprentissage efficace
- 7
WSrx009v
Comment devenir un apprenant efficace
- 15
WSrx009v
Ingénieur en construction de première classe Chapitre 3 Gestion de l'avancement du projet de construction
- 6
WSrx009v
Citations classiques Alive
- 8
WSrx009v
Chimie organique (réactions de substitution)
- 7
WSrx009v
statistiques médicales
- 16
WSrx009v
5 étapes pour ouvrir la voie vers l’avenir (planification future)
- 6
WSrx009v
Décrire brièvement la stratégie de sélection du marché cible
- 4
WSZUS4lF

DBSCAN

Introduction

Idée d'algorithme : Pour chaque point central, si la densité de sa zone adjacente est supérieure au seuil, ajoutez-le à un cluster proche de lui.

Plusieurs concepts impliqués dans DBSCAN

Voisinage Eps : étant donné un objet p et un rayon d, dessinez une boule avec l'objet p comme centre et rayon d :

Point central : étant donné un objet p et un nombre minpts, le nombre d'objets dans son voisinage est supérieur à minpts :

Point limite : étant donné un objet p et un nombre minpts, le nombre d'objets dans son voisinage est inférieur à minpts, mais il se trouve dans la zone d'autres points centraux.

Point aberrant : étant donné un objet p et un nombre minpts, le nombre d'objets dans son voisinage est inférieur à minpts, et il n'est pas dans la zone des autres points centraux.

Accessibilité directe de la densité : le point central de tout point de données dans son voisinage est directement accessible par la densité :

La densité est atteignable : du point central p à un point q de son voisinage, c'est-à-dire p->q ; n est appelé densité accessible

Densité connectée : S'il existe un point central o, o->p ; o->q, alors p et q sont dits densité connectée :

Étapes de l'algorithme

Étape 1 : Parcourir et marquer tous les points d'échantillonnage

Étape 2 : Sélectionnez n'importe quel point sans étiquette de cluster

Point central : intégrer tous les points d'échantillonnage avec une densité accessible dans un nouveau cluster

Point limite : ignorez le point limite et scannez le point d'échantillonnage suivant

Étape 3 : bouclez l'étape 2 jusqu'à ce que tous les points soient numérisés

Avantages et inconvénients de DBSCAN

avantage

Pas sensible au bruit

Des groupes de formes arbitraires peuvent être trouvés

Pas besoin de définir manuellement le nombre de clusters

défaut

Le modèle est très sensible aux paramètres Eps et minpts

Lorsque la densité des données est inégale et que l’espacement des clusters diffère considérablement, la qualité du clustering est médiocre.

optimisation

Pour les problèmes sensibles aux paramètres

Méthode : en introduisant la distance centrale et la distance accessible, l'algorithme de clustering est rendu insensible aux paramètres d'entrée. Autrement dit, l'algorithme OPTICS

OPTIQUE

Idée d'algorithme : calculer la distance accessible de tous les échantillons pour compenser la sensibilité du paramètre Eps

plusieurs notions

Distance centrale : la distance minimale qui satisfait les minpts

Distance accessible : la plus petite valeur de la distance euclidienne entre le point d'échantillonnage et le point central et la distance centrale du point central

Étapes de l'algorithme

Étape 1 : Étant donné l'ensemble de données D, créez deux files d'attente, la file d'attente ordonnée O et la file d'attente de résultats R (la file d'attente ordonnée est utilisée pour stocker les objets de base et leurs objets directs de densité, et sont disposées par ordre croissant par distance accessible ; Le résultat La file d'attente est utilisée pour stocker l'ordre de sortie des points d'échantillonnage. La file d'attente ordonnée peut être comprise comme les données à traiter, tandis que la file d'attente des résultats contient les données traitées.)

Étape 2 : Si tous les points de D ont été traités ou s’il n’y a aucun point central, l’algorithme se termine. Sinon, sélectionnez un point échantillon p qui n'est pas traité (c'est-à-dire pas dans la file d'attente des résultats R) et qui est un objet principal, placez d'abord p dans la file d'attente des résultats R et supprimez p de D. Trouvez ensuite toutes les densités de p dans D directement au point d'échantillonnage x et calculez la distance accessible de x à p Si x n'est pas dans la file d'attente ordonnée O, mettez x et la distance accessible dans O. Si x est dans O. , puis si la nouvelle distance accessible de x est plus petite, mettez à jour la distance accessible de x et enfin réorganisez les données dans O en fonction de la distance accessible de petite à grande.

Étape 3 : Si la file d'attente ordonnée O est vide, revenez à l'étape 2, sinon retirez le premier point d'échantillonnage y en O (c'est-à-dire le point d'échantillonnage avec la plus petite distance accessible), placez-le dans R et supprimez-le de D et O suppriment y. Si y n'est pas un objet central, répétez l'étape 3 (c'est-à-dire trouvez le point d'échantillonnage avec la plus petite distance accessible des données restantes dans O) ; si y est un objet central, trouvez toutes les densités de y dans D qui atteignent le échantillonnez des points et calculez la distance accessible, puis suivez l'étape 2 pour mettre à jour la densité de tous y jusqu'aux points d'échantillonnage dans O

Étape 4 : Répétez les étapes 2 et 3 jusqu'à la fin de l'algorithme, et obtenez enfin un résultat de sortie ordonné et la distance accessible correspondante.

Par exemple

L'ensemble de données connu est présenté dans la figure :

Étape 1 : calculez la distance accessible entre le point central et les autres points

Étape 2 : Triez la distance accessible, sélectionnez des points d'échantillonnage plus petits et répétez la première étape :

Étape 3 : affichez les objets principaux et leurs distances accessibles, et divisez-les en clusters : [0, 1, 3, 6, 5, 2, 4], distances accessibles : [inf, 3.16227766, 4.12310563, 1.41421356, 1. ,3.60555128, 1.41421356]