Conecte-se
Fazer login

DBSCAN

Algoritmo de clustering de densidade, incluindo definição, vários conceitos envolvidos em DBSCAN, etapas do algoritmo, Vantagens e desvantagens do DBSCAN, etc.

Editado em 2023-12-23 14:05:37

WSysQn6v

Trabalhos recentes Ver mais trabalhos>>

moléculas que compõem as células
A segunda unidade do Curso Obrigatório de Biologia resumiu e organizou os pontos de conhecimento, abrangendo todos os conteúdos básicos, o que é muito conveniente para todos aprenderem. Adequado para revisão e visualização de exames para melhorar a eficiência do aprendizado. Apresse-se e colete-o para aprender juntos!
Cambridge IGCS Chemistry Coursebook 2023 Capítulo 16 Resumo dos pontos de conhecimento
Este é um mapa mental sobre Extração e corrosão de mim. O conteúdo principal inclui: Corrosão de metais, Extração de metais e a série de reatividade.
Cambridge IGCS Chemistry Coursebook 2023 Capítulo 15 Resumo dos pontos de conhecimento
Este é um mapa mental sobre Reatividade de metais. O conteúdo principal inclui: Reações de deslocamento de metais, A série de reatividade de metais.

DBSCAN

WSysQn6v

Trabalhos recentes Ver mais trabalhos>>

Recomendado para você
Descrição

Aprendizagem em conjunto
- 12
WSysQn6v
agrupamento hierárquico
- 10
WSysQn6v
K-meios
- 19
WSysQn6v
Árvore de conhecimento de big data
- 25
슈퍼직장인
Capítulo 3 Modelo Linear
- 15
슈퍼직장인
IA
- 68
WSb6eYgD
Desenvolvimento de Tecnologia de Inteligência Artificial
- 9
WSb6eYgD
IA
- 14
WSb6eYgD
Introdução à Inteligência Artificial
- 16
WSb6eYgD
Resumo dos pontos de conhecimento de aprendizado de máquina de inteligência artificial do sklearn (com ilustrações práticas de código)
- 10
WSb6eYgD

DBSCAN

Introdução

Idéia de algoritmo: para cada ponto central, se a densidade de sua área adjacente for maior que o limite, adicione-o a um cluster próximo a ele.

Vários conceitos envolvidos no DBSCAN

Vizinhança Eps: Dado um objeto p e raio d, desenhe uma bola com o objeto p como centro e raio d:

Ponto central: Dado um objeto p e um número de minpts, o número de objetos em sua vizinhança é maior que minpts:

Ponto limite: Dado um objeto p e um número de minpts, o número de objetos em sua vizinhança é menor que o de minpts, mas está dentro da área de outros pontos centrais.

Ponto discrepante: dado um objeto p e um número de minpts, o número de objetos em sua vizinhança é menor que minpts e não está dentro da área de outros pontos centrais.

Acessibilidade de densidade direta: O ponto central para qualquer ponto de dados em sua vizinhança é diretamente alcançável por densidade:

A densidade é alcançável: do ponto central p até um ponto q em sua vizinhança, ou seja, p->q, do ponto central q até um ponto n em sua vizinhança, ou seja, q->n então p->; n é chamado de densidade alcançável

Densidade conectada: Se houver um ponto central o, o->p;

Etapas do algoritmo

Passo 1: Atravesse e marque todos os pontos de amostra

Etapa 2: selecione qualquer ponto sem rótulo de cluster

Ponto central: Integrar todos os pontos amostrais com densidade alcançável em um novo cluster

Ponto limite: pule o ponto limite e digitalize o próximo ponto de amostra

Etapa 3: repetir a etapa 2 até que todos os pontos sejam digitalizados

Vantagens e desvantagens do DBSCAN

vantagem

Não é sensível ao ruído

Clusters de formas arbitrárias podem ser encontrados

Não há necessidade de definir manualmente o número de clusters

deficiência

O modelo é muito sensível aos parâmetros Eps e minpts

Quando a densidade dos dados é desigual e o espaçamento do cluster difere muito, a qualidade do cluster é ruim.

otimização

Para questões sensíveis a parâmetros

Método: Ao introduzir a distância central e a distância alcançável, o algoritmo de agrupamento torna-se insensível aos parâmetros de entrada. Ou seja, o algoritmo OPTICS

ÓPTICA

Idéia de algoritmo: Calcule a distância alcançável de todas as amostras para compensar a sensibilidade do parâmetro Eps

vários conceitos

Distância central: a distância mínima que satisfaz os minpts

Distância alcançável: o menor valor da distância euclidiana entre o ponto amostral e o ponto central e a distância central do ponto central

Etapas do algoritmo

Etapa 1: Dado o conjunto de dados D, crie duas filas, a fila ordenada O e a fila de resultados R (a fila ordenada é usada para armazenar objetos principais e seus objetos diretos de densidade, e são organizadas em ordem crescente por distância alcançável; O resultado fila é usada para armazenar a ordem de saída dos pontos de amostra. A fila ordenada pode ser entendida como os dados a serem processados, enquanto a fila de resultados contém os dados processados.)

Passo 2: Se todos os pontos em D tiverem sido processados ou não houver pontos centrais, o algoritmo termina. Caso contrário, selecione um ponto de amostra p que não seja processado (ou seja, não esteja na fila de resultados R) e seja um objeto principal, primeiro coloque p na fila de resultados R e exclua p de D. Em seguida, encontre todas as densidades de p em D diretamente no ponto amostral x e calcule a distância alcançável de x a p. Se x não estiver na fila ordenada O, coloque x e a distância alcançável em O. Se x estiver em O. , então, se a nova distância alcançável de x for menor, atualize a distância alcançável de x e, finalmente, reordene os dados em O de acordo com a distância alcançável, de pequeno a grande.

Etapa 3: Se a fila ordenada O estiver vazia, volte para a etapa 2, caso contrário, retire o primeiro ponto amostral y em O (ou seja, o ponto amostral com a menor distância alcançável), coloque-o em R e remova-o de D e O excluem y. Se y não for um objeto central, repita a etapa 3 (ou seja, encontre o ponto amostral com a menor distância alcançável dos dados restantes em O, se y for um objeto central, encontre todas as densidades de y em D que atingem o objeto central); pontos de amostra e calcule a distância alcançável e, em seguida, siga a etapa 2 para atualizar a densidade de todos os y até os pontos de amostra em O

Etapa 4: Repita as etapas 2 e 3 até que o algoritmo termine e, finalmente, obtenha um resultado de saída ordenado e a distância alcançável correspondente.

por exemplo

O conjunto de dados conhecido é mostrado na figura:

Etapa 1: Calcule a distância alcançável do ponto central a outros pontos

Etapa 2: classifique a distância alcançável, selecione pontos de amostra menores e repita a etapa um:

Etapa 3: produza os objetos principais e suas distâncias alcançáveis e divida-os em clusters: [0, 1, 3, 6, 5, 2, 4], distâncias alcançáveis: [inf, 3,16227766, 4,12310563, 1,41421356, 1. ,3.60555128, 1.41421356]