Login
Accedi

K-meios

Princípio e extensão do algoritmo de agrupamento K-means. Idéia de algoritmo: para um determinado conjunto de objetos de dados, divida o conjunto de objetos de dados em K clusters de acordo com a distância entre os objetos de dados, de modo que os pontos nos clusters estejam conectados o mais próximo possível e a distância entre os clusters seja o mais próxima possível possível.

Modificato alle 2023-12-23 14:03:33

WSysQn6v

K-meios

WSysQn6v

Consigliato per te
Profilo

Aprendizagem em conjunto
- 6
WSysQn6v
agrupamento hierárquico
- 6
WSysQn6v
DBSCAN
- 10
WSysQn6v
Árvore de conhecimento de big data
- 21
슈퍼직장인
Capítulo 3 Modelo Linear
- 10
슈퍼직장인
IA
- 60
WSb6eYgD
Desenvolvimento de Tecnologia de Inteligência Artificial
- 8
WSb6eYgD
IA
- 9
WSb6eYgD
Introdução à Inteligência Artificial
- 10
WSb6eYgD
Resumo dos pontos de conhecimento de aprendizado de máquina de inteligência artificial do sklearn (com ilustrações práticas de código)
- 9
WSb6eYgD

K-meios

Introdução

Ideia de algoritmo: para um determinado conjunto de objetos de dados, divida o conjunto de objetos de dados em K clusters de acordo com a distância entre os objetos de dados, de modo que os pontos nos clusters estejam conectados o mais próximo possível e a distância entre os clusters seja o mais próxima possível . grande

Ilustração:

Etapas do algoritmo

Etapa 1: Selecione os centros iniciais de K clusters

Passo 2: Calcule a distância entre cada amostra e os K centros iniciais e atribua-os ao cluster com a distância mais próxima.

Etapa 3: recalcular o centro do cluster (a média das amostras no cluster)

Passo 4: Repita os passos 2 e 3 até que todas as amostras não mudem mais.

Ilustração:

Várias questões a serem consideradas com K-means

Como é determinado o número de clusters?

Método 1: Método Elbow (calcular o SSE do modelo em cada valor K e selecionar o valor K com a menor alteração no SSE)

Ilustração:

Método 2: Coeficiente de silhueta (calcular o coeficiente de silhueta do modelo sob cada valor K e selecionar o valor K com o maior coeficiente de silhueta)

Ideia: Avaliação de cluster examinando a separação e compactação dos clusters

Ilustração:

Como o centro inicial é determinado?

Método 1: seleção aleatória

Método 2: Especifique o local

Método 3: K-médias

Idéia: Ao selecionar o centro inicial, tente manter a distância entre cada centro inicial o máximo possível

Ilustração:

Vantagens e desvantagens do K-means

vantagem

Também é simples e eficiente para grandes conjuntos de dados, com baixa complexidade de tempo e complexidade de espaço.

O algoritmo tem forte interpretabilidade

deficiência

Quando o conjunto de dados é grande, a velocidade de cálculo é lenta e o resultado é fácil de ser ótimo localmente.

K-means é mais sensível ao número de valores K e à localização do centro inicial

K-means é muito sensível a ruídos e valores discrepantes

A média não pode ser calculada para conjuntos de dados contendo atributos categóricos, tornando o algoritmo indisponível.

K-means só pode agrupar clusters esféricos

Otimização de K-means

Para resolver o problema da velocidade de cálculo lenta quando o conjunto de dados é muito grande

Método: Amostra aleatória do conjunto de dados várias vezes e agrupa cada subconjunto amostrado usando K-means até que o centro do cluster se torne estável (MiniBatchKMeans)

Etapas do algoritmo MiniBatchKMeans

Etapa 1: amostragem aleatória do conjunto de amostras

Etapa 2: K-médias

Etapa 3: Repita as etapas 1 e 2 até que o centro do cluster fique estável.

Para o problema de que a média não pode ser calculada quando o atributo é do tipo categórico

Método: substitua a média calculando a moda (modo K)

Para conjuntos de dados onde é difícil determinar o número de clusters K

Método: Calcule o centro do cluster através do valor médio das amostras em uma determinada área e atualize continuamente o centro do cluster até que o centro do cluster se torne estável (Mean-Shift)

Etapas do algoritmo Mean-Shift

Etapa 1: Selecione aleatoriamente um ponto amostral e calcule o vetor médio das distâncias de outros pontos amostrais até ele:

Etapa 2: Mova a posição do ponto amostral de acordo com o vetor médio e, em seguida, calcule o vetor médio da distância de outros pontos amostrais até ele novamente até que o valor absoluto do vetor médio seja pequeno o suficiente ou o ponto amostral não possa ser movido .

Etapa 3: Repita as etapas 1 e 2 até que todos os pontos de amostra sejam percorridos

Otimização de deslocamento médio

Para o cálculo do vetor médio, não é considerada a contribuição de outros pontos amostrais para o ponto amostral atual.

Use a função de kernel gaussiana para medir a contribuição de outros pontos amostrais para o ponto amostral atual: