Galeria de mapas mentais agrupamento hierárquico
O agrupamento hierárquico é um algoritmo de agrupamento. Sua ideia básica é considerar todas as observações (ou amostras) classificadas como um grupo de agrupamento inicial e, em seguida, classificar esse grupo de agrupamento hierarquicamente de acordo com um determinado critério de agrupamento. girar até que certas condições de rescisão sejam atendidas.
Editado em 2023-12-23 14:06:33A segunda unidade do Curso Obrigatório de Biologia resumiu e organizou os pontos de conhecimento, abrangendo todos os conteúdos básicos, o que é muito conveniente para todos aprenderem. Adequado para revisão e visualização de exames para melhorar a eficiência do aprendizado. Apresse-se e colete-o para aprender juntos!
Este é um mapa mental sobre Extração e corrosão de mim. O conteúdo principal inclui: Corrosão de metais, Extração de metais e a série de reatividade.
Este é um mapa mental sobre Reatividade de metais. O conteúdo principal inclui: Reações de deslocamento de metais, A série de reatividade de metais.
A segunda unidade do Curso Obrigatório de Biologia resumiu e organizou os pontos de conhecimento, abrangendo todos os conteúdos básicos, o que é muito conveniente para todos aprenderem. Adequado para revisão e visualização de exames para melhorar a eficiência do aprendizado. Apresse-se e colete-o para aprender juntos!
Este é um mapa mental sobre Extração e corrosão de mim. O conteúdo principal inclui: Corrosão de metais, Extração de metais e a série de reatividade.
Este é um mapa mental sobre Reatividade de metais. O conteúdo principal inclui: Reações de deslocamento de metais, A série de reatividade de metais.
agrupamento hierárquico
Introdução
Ideia algorítmica: dividir hierarquias de acordo com um determinado método até que certas condições sejam atendidas
Ilustração:
Dois métodos de cluster hierárquico
método de aglomeração
Ideia de algoritmo: de baixo para cima, primeiro trate cada objeto como um cluster e, em seguida, mescle os clusters em clusters cada vez maiores até que todos os objetos estejam em um cluster ou atendam a uma determinada condição de terminação
Etapas do algoritmo
Passo 1: Calcule a distância entre cada amostra
Etapa 2: As duas amostras com a menor distância são agrupadas em uma categoria, ou seja, cluster C1
Etapa 3: Calcule a distância de outras amostras até C1
Método de medição de distância entre clusters
Método 1: Método da distância mais curta (a distância mínima entre as amostras no cluster Ci e no cluster Cj é usada como a distância entre clusters)
Método 2: Método da distância mais longa (a distância máxima entre as amostras no cluster Ci e no cluster Cj é usada como a distância entre clusters)
Método 3: Método da média da classe (a média das distâncias entre o cluster Ci e todas as amostras no cluster Cj é usada como a distância entre clusters)
Método 4: Método central (a distância entre os pontos centrais do cluster Ci e do cluster Cj (o valor médio das amostras no cluster) é usada como a distância entre clusters)
Etapa 4: repetir as etapas 2 e 3 até que todos os objetos estejam em um cluster ou atendam a uma determinada condição de encerramento
Ilustração:
método de divisão
Idéia de algoritmo: de cima para baixo, primeiro coloque todos os objetos no mesmo cluster e, em seguida, divida-os gradualmente em clusters cada vez menores até que cada objeto forme um cluster próprio ou atenda a uma determinada condição de terminação
Etapas do algoritmo
Etapa 1: Agrupe todas as amostras em um cluster, calcule a distância entre cada amostra e selecione as duas amostras com a maior distância.
Etapa 2: Divida as duas amostras mais distantes em dois agrupamentos e calcule as distâncias das outras amostras aos dois agrupamentos.
O método de medição de distância é exatamente igual ao método de aglomeração
Passo 3: Divida outras amostras em clusters mais próximos
Etapa 4: percorra as etapas 2 e 3 até que cada objeto forme um cluster ou atenda a uma determinada condição de término.
Ilustração:
Vantagens e desvantagens do cluster hierárquico
vantagem
Distância e similaridade de regras são fáceis de definir
Não há necessidade de especificar o número de clusters com antecedência
Você pode descobrir o relacionamento hierárquico das classes
deficiência
A complexidade computacional é muito alta e a quantidade de dados é muito grande para ser aplicável.
O modelo é mais sensível a outliers
A forma do cluster tende a ser semelhante a uma cadeia
otimização
Visando o problema de que os dados de cluster hierárquico são muito grandes para serem usados
Método: Use tecnologia de clustering de vários estágios para realizar clustering de maneira incremental para reduzir significativamente o tempo de clustering, ou seja, algoritmo BIRCH
Incremental: A decisão de agrupamento de cada ponto de dados é baseada nos pontos de dados atualmente processados, e não nos pontos de dados globais.
Algoritmo BIRCH
Princípio do algoritmo: Os recursos de cluster usam 3 tuplas para obter informações relevantes sobre um cluster. O cluster é obtido construindo uma árvore de recursos de cluster que atende às restrições do fator de ramificação e do diâmetro do cluster.
vários conceitos
Recursos de cluster (CF)
Definição: CF é um trio, que pode ser representado por (N, LS, SS). Entre eles, N representa o número de amostras neste CF; LS representa o vetor soma de cada dimensão de característica dos pontos de amostra neste CF, e SS representa a soma dos quadrados de cada dimensão de característica dos pontos de amostra neste CF;
Propriedades: Satisfazer a relação linear, ou seja, CF1 CF2=(N1 N2,LS1 LS2,SS1 SS2)
Exemplo: Suponha que um determinado CF contenha 5 amostras de recursos bidimensionais (3,4), (2,6), (4,5), (4,7), (3,8)
CF's N=5
LS de CF=(3 2 4 4 3,4 6 5 7 8)=(16,30)
SS de CF = (3 ^ 2 2 ^ 2 4 ^ 2 4 ^ 2 3 ^ 2 4 ^ 2 6 ^ 2 5 ^ 2 7 ^ 2 8 ^ 2) = 54 190 = 244
Árvore de recursos de cluster (árvore CF)
Definição: os nós folha são clusters e os nós não folha armazenam a soma CF de seus descendentes.
Parâmetros da árvore CF
Número máximo de nós não-folha: B (fator de ramificação)
O número máximo de CFs contidos em cada nó folha: L
Limite máximo de raio para cada CF de nós folha: T
Processo de criação de árvore CF
Passo 1: Leia a primeira amostra e incorpore-a no novo trio LN1
Ilustração:
Passo 2: Leia a segunda amostra. Se estiver dentro de uma esfera com raio T como a amostra anterior, defina-a para o mesmo trio. Caso contrário, gere um novo trio LN2.
Ilustração:
Etapa 3: Se a nova amostra estiver mais próxima do nó LN1, mas não estiver mais dentro do raio da hiperesfera T de SC1, SC2 e SC3, e L=3, ela precisará ser dividida.
Ilustração:
Etapa 4: entre todas as tuplas CF em LN1, encontre os dois CFs mais distantes como os CFs iniciais desses dois novos nós folha e, em seguida, adicione todos os CFs sc1, sc2, sc3 no nó LN1, bem como os novos elementos do nó LN1. novo ponto de amostra. O grupo sc6 é dividido em dois novos nós folha.
Ilustração:
Etapa 5: Repita as etapas 2, 3 e 4 até que a condição de encerramento seja atendida
Vantagens e desvantagens
vantagem
A velocidade de agrupamento é rápida e pontos de ruído podem ser identificados
Escalabilidade linear, boa qualidade de cluster
deficiência
Só pode lidar com dados numéricos
Sensível à ordem de entrada de dados
Não funciona bem quando os clusters não são esféricos