Login
Accedi

K-significa

Principio ed estensione dell'algoritmo di clustering K-means. Idea di algoritmo: per un dato insieme di oggetti dati, dividere l'insieme di oggetti dati in K cluster in base alla distanza tra gli oggetti dati, in modo che i punti nei cluster siano collegati il più strettamente possibile e la distanza tra i cluster sia il più vicina possibile possibile.

Modificato alle 2023-12-23 14:03:33

VisioneCreativa

Lavori recenti Visualizza più lavori>>

K-significa

VisioneCreativa

Lavori recenti Visualizza più lavori>>

Consigliato per te
Profilo

K-significa

introduzione

Idea di algoritmo: per un dato set di oggetti dati, dividere il set di oggetti dati in K cluster in base alla distanza tra gli oggetti dati, in modo che i punti nei cluster siano collegati il più strettamente possibile e la distanza tra i cluster sia la più vicina possibile . grande

Illustrazione:

Passi dell'algoritmo

Passaggio 1: selezionare i centri iniziali dei cluster K

Passaggio 2: Calcolare la distanza tra ciascun campione e i K centri iniziali e attribuirli al cluster con la distanza più vicina.

Passaggio 3: ricalcolare il centro del cluster (la media dei campioni nel cluster)

Passaggio 4: ripetere i passaggi 2 e 3 finché tutti i campioni non cambiano più.

Illustrazione:

Diversi problemi da considerare con K-mean

Come viene determinato il numero di cluster?

Metodo 1: metodo del gomito (calcola l'SSE del modello per ciascun valore K e seleziona il valore K con la variazione più piccola nell'SSE)

Illustrazione:

Metodo 2: coefficiente di silhouette (calcola il coefficiente di silhouette del modello sotto ciascun valore K e seleziona il valore K con il coefficiente di silhouette più grande)

Idea: valutazione del clustering esaminando la separazione e la compattezza dei cluster

Illustrazione:

Come viene determinato il centro iniziale?

Metodo 1: selezione casuale

Metodo 2: specificare la posizione

Metodo 3: K-significa

Idea: quando si seleziona il centro iniziale, cercare di mantenere la distanza più ampia possibile tra ciascun centro iniziale

Illustrazione:

Vantaggi e svantaggi delle medie K

vantaggio

È anche semplice ed efficiente per set di dati di grandi dimensioni, con bassa complessità temporale e spaziale.

L'algoritmo ha una forte interpretabilità

discordanza

Quando il set di dati è grande, la velocità di calcolo è lenta e il risultato può facilmente essere ottimale a livello locale.

Le medie K sono più sensibili al numero di valori K e alla posizione del centro iniziale

K-mean è molto sensibile al rumore e ai valori anomali

Non è possibile calcolare la media per set di dati contenenti attributi categoriali, rendendo l'algoritmo non disponibile.

K-significa che può raggruppare solo cluster sferici

Ottimizzazione delle medie K

Per risolvere il problema della bassa velocità di calcolo quando il set di dati è troppo grande

Metodo: campionare casualmente il set di dati più volte e raggruppare ciascun sottoinsieme campionato utilizzando medie K fino a quando il centro del cluster diventa stabile (MiniBatchKMeans)

Passaggi dell'algoritmo MiniBatchKMeans

Passaggio 1: campionamento casuale del set di campioni

Passaggio 2: K-significa

Passaggio 3: ripetere i passaggi 1 e 2 finché il centro del cluster non diventa stabile.

Per il problema che la media non può essere calcolata quando l'attributo è di tipo categoriale

Metodo: sostituire la media calcolando la moda (modalità K)

Per i set di dati in cui è difficile determinare il numero di cluster K

Metodo: calcolare il centro del cluster attraverso il valore medio dei campioni in una determinata area e aggiornare continuamente il centro del cluster finché non diventa stabile (Mean-Shift)

Passi dell'algoritmo Mean-Shift

Passaggio 1: selezionare casualmente un punto campione e calcolare il vettore medio delle distanze da altri punti campione ad esso:

Passo 2: spostare la posizione del punto campione in base al vettore medio, quindi calcolare nuovamente il vettore medio della distanza dagli altri punti campione fino a quando il valore assoluto del vettore medio è sufficientemente piccolo o il punto campione non può essere spostato .

Passaggio 3: ripetere i passaggi 1 e 2 finché non vengono attraversati tutti i punti campione

Ottimizzazione dello spostamento medio

Per il calcolo del vettore medio non viene considerato il contributo di altri punti campione al punto campione corrente.

Utilizzare la funzione del kernel gaussiano per misurare il contributo di altri punti campione al punto campione corrente: