Galeria de mapas mentais DBSCAN
Algoritmo de clustering de densidade, incluindo definição, vários conceitos envolvidos em DBSCAN, etapas do algoritmo, Vantagens e desvantagens do DBSCAN, etc.
Editado em 2023-12-23 14:05:37A segunda unidade do Curso Obrigatório de Biologia resumiu e organizou os pontos de conhecimento, abrangendo todos os conteúdos básicos, o que é muito conveniente para todos aprenderem. Adequado para revisão e visualização de exames para melhorar a eficiência do aprendizado. Apresse-se e colete-o para aprender juntos!
Este é um mapa mental sobre Extração e corrosão de mim. O conteúdo principal inclui: Corrosão de metais, Extração de metais e a série de reatividade.
Este é um mapa mental sobre Reatividade de metais. O conteúdo principal inclui: Reações de deslocamento de metais, A série de reatividade de metais.
A segunda unidade do Curso Obrigatório de Biologia resumiu e organizou os pontos de conhecimento, abrangendo todos os conteúdos básicos, o que é muito conveniente para todos aprenderem. Adequado para revisão e visualização de exames para melhorar a eficiência do aprendizado. Apresse-se e colete-o para aprender juntos!
Este é um mapa mental sobre Extração e corrosão de mim. O conteúdo principal inclui: Corrosão de metais, Extração de metais e a série de reatividade.
Este é um mapa mental sobre Reatividade de metais. O conteúdo principal inclui: Reações de deslocamento de metais, A série de reatividade de metais.
DBSCAN
Introdução
Idéia de algoritmo: para cada ponto central, se a densidade de sua área adjacente for maior que o limite, adicione-o a um cluster próximo a ele.
Vários conceitos envolvidos no DBSCAN
Vizinhança Eps: Dado um objeto p e raio d, desenhe uma bola com o objeto p como centro e raio d:
Ponto central: Dado um objeto p e um número de minpts, o número de objetos em sua vizinhança é maior que minpts:
Ponto limite: Dado um objeto p e um número de minpts, o número de objetos em sua vizinhança é menor que o de minpts, mas está dentro da área de outros pontos centrais.
Ponto discrepante: dado um objeto p e um número de minpts, o número de objetos em sua vizinhança é menor que minpts e não está dentro da área de outros pontos centrais.
Acessibilidade de densidade direta: O ponto central para qualquer ponto de dados em sua vizinhança é diretamente alcançável por densidade:
A densidade é alcançável: do ponto central p até um ponto q em sua vizinhança, ou seja, p->q, do ponto central q até um ponto n em sua vizinhança, ou seja, q->n então p->; n é chamado de densidade alcançável
Densidade conectada: Se houver um ponto central o, o->p;
Etapas do algoritmo
Passo 1: Atravesse e marque todos os pontos de amostra
Etapa 2: selecione qualquer ponto sem rótulo de cluster
Ponto central: Integrar todos os pontos amostrais com densidade alcançável em um novo cluster
Ponto limite: pule o ponto limite e digitalize o próximo ponto de amostra
Etapa 3: repetir a etapa 2 até que todos os pontos sejam digitalizados
Vantagens e desvantagens do DBSCAN
vantagem
Não é sensível ao ruído
Clusters de formas arbitrárias podem ser encontrados
Não há necessidade de definir manualmente o número de clusters
deficiência
O modelo é muito sensível aos parâmetros Eps e minpts
Quando a densidade dos dados é desigual e o espaçamento do cluster difere muito, a qualidade do cluster é ruim.
otimização
Para questões sensíveis a parâmetros
Método: Ao introduzir a distância central e a distância alcançável, o algoritmo de agrupamento torna-se insensível aos parâmetros de entrada. Ou seja, o algoritmo OPTICS
ÓPTICA
Idéia de algoritmo: Calcule a distância alcançável de todas as amostras para compensar a sensibilidade do parâmetro Eps
vários conceitos
Distância central: a distância mínima que satisfaz os minpts
Distância alcançável: o menor valor da distância euclidiana entre o ponto amostral e o ponto central e a distância central do ponto central
Etapas do algoritmo
Etapa 1: Dado o conjunto de dados D, crie duas filas, a fila ordenada O e a fila de resultados R (a fila ordenada é usada para armazenar objetos principais e seus objetos diretos de densidade, e são organizadas em ordem crescente por distância alcançável; O resultado fila é usada para armazenar a ordem de saída dos pontos de amostra. A fila ordenada pode ser entendida como os dados a serem processados, enquanto a fila de resultados contém os dados processados.)
Passo 2: Se todos os pontos em D tiverem sido processados ou não houver pontos centrais, o algoritmo termina. Caso contrário, selecione um ponto de amostra p que não seja processado (ou seja, não esteja na fila de resultados R) e seja um objeto principal, primeiro coloque p na fila de resultados R e exclua p de D. Em seguida, encontre todas as densidades de p em D diretamente no ponto amostral x e calcule a distância alcançável de x a p. Se x não estiver na fila ordenada O, coloque x e a distância alcançável em O. Se x estiver em O. , então, se a nova distância alcançável de x for menor, atualize a distância alcançável de x e, finalmente, reordene os dados em O de acordo com a distância alcançável, de pequeno a grande.
Etapa 3: Se a fila ordenada O estiver vazia, volte para a etapa 2, caso contrário, retire o primeiro ponto amostral y em O (ou seja, o ponto amostral com a menor distância alcançável), coloque-o em R e remova-o de D e O excluem y. Se y não for um objeto central, repita a etapa 3 (ou seja, encontre o ponto amostral com a menor distância alcançável dos dados restantes em O, se y for um objeto central, encontre todas as densidades de y em D que atingem o objeto central); pontos de amostra e calcule a distância alcançável e, em seguida, siga a etapa 2 para atualizar a densidade de todos os y até os pontos de amostra em O
Etapa 4: Repita as etapas 2 e 3 até que o algoritmo termine e, finalmente, obtenha um resultado de saída ordenado e a distância alcançável correspondente.
por exemplo
O conjunto de dados conhecido é mostrado na figura:
Etapa 1: Calcule a distância alcançável do ponto central a outros pontos
Etapa 2: classifique a distância alcançável, selecione pontos de amostra menores e repita a etapa um:
Etapa 3: produza os objetos principais e suas distâncias alcançáveis e divida-os em clusters: [0, 1, 3, 6, 5, 2, 4], distâncias alcançáveis: [inf, 3,16227766, 4,12310563, 1,41421356, 1. ,3.60555128, 1.41421356]