Galleria mappe mentale K-significa
Principio ed estensione dell'algoritmo di clustering K-means. Idea di algoritmo: per un dato insieme di oggetti dati, dividere l'insieme di oggetti dati in K cluster in base alla distanza tra gli oggetti dati, in modo che i punti nei cluster siano collegati il più strettamente possibile e la distanza tra i cluster sia il più vicina possibile possibile.
Modificato alle 2023-12-23 14:03:33個人求職簡歷模板的暗黑配色方案,包括個人簡介、職業規劃、行業經驗、自我評價等多個部分,讓你的簡歷更出彩。使用模板可以極大地提高效率,用戶不需要從頭開始設計結構和內容,只需在模板的基礎上填寫或添加自己的信息即可,這樣可以節省大量的時間和精力,歡迎參考使用!持續分享給大家……
Se non sai come scrivere un articolo, sarai nei guai come manager dei sistemi informativi. Una guida passo passo su come scrivere un documento sulla gestione del rischio. Se ne hai bisogno, ritiralo velocemente!
Il programma dietetico formula un programma dietetico scientifico e ragionevole per soddisfare i nutrienti e l'energia richiesti dal corpo, mantenendo così una buona salute e una buona postura.
個人求職簡歷模板的暗黑配色方案,包括個人簡介、職業規劃、行業經驗、自我評價等多個部分,讓你的簡歷更出彩。使用模板可以極大地提高效率,用戶不需要從頭開始設計結構和內容,只需在模板的基礎上填寫或添加自己的信息即可,這樣可以節省大量的時間和精力,歡迎參考使用!持續分享給大家……
Se non sai come scrivere un articolo, sarai nei guai come manager dei sistemi informativi. Una guida passo passo su come scrivere un documento sulla gestione del rischio. Se ne hai bisogno, ritiralo velocemente!
Il programma dietetico formula un programma dietetico scientifico e ragionevole per soddisfare i nutrienti e l'energia richiesti dal corpo, mantenendo così una buona salute e una buona postura.
K-significa
introduzione
Idea di algoritmo: per un dato set di oggetti dati, dividere il set di oggetti dati in K cluster in base alla distanza tra gli oggetti dati, in modo che i punti nei cluster siano collegati il più strettamente possibile e la distanza tra i cluster sia la più vicina possibile . grande
Illustrazione:
Passi dell'algoritmo
Passaggio 1: selezionare i centri iniziali dei cluster K
Passaggio 2: Calcolare la distanza tra ciascun campione e i K centri iniziali e attribuirli al cluster con la distanza più vicina.
Passaggio 3: ricalcolare il centro del cluster (la media dei campioni nel cluster)
Passaggio 4: ripetere i passaggi 2 e 3 finché tutti i campioni non cambiano più.
Illustrazione:
Diversi problemi da considerare con K-mean
Come viene determinato il numero di cluster?
Metodo 1: metodo del gomito (calcola l'SSE del modello per ciascun valore K e seleziona il valore K con la variazione più piccola nell'SSE)
Illustrazione:
Metodo 2: coefficiente di silhouette (calcola il coefficiente di silhouette del modello sotto ciascun valore K e seleziona il valore K con il coefficiente di silhouette più grande)
Idea: valutazione del clustering esaminando la separazione e la compattezza dei cluster
Illustrazione:
Come viene determinato il centro iniziale?
Metodo 1: selezione casuale
Metodo 2: specificare la posizione
Metodo 3: K-significa
Idea: quando si seleziona il centro iniziale, cercare di mantenere la distanza più ampia possibile tra ciascun centro iniziale
Illustrazione:
Vantaggi e svantaggi delle medie K
vantaggio
È anche semplice ed efficiente per set di dati di grandi dimensioni, con bassa complessità temporale e spaziale.
L'algoritmo ha una forte interpretabilità
discordanza
Quando il set di dati è grande, la velocità di calcolo è lenta e il risultato può facilmente essere ottimale a livello locale.
Le medie K sono più sensibili al numero di valori K e alla posizione del centro iniziale
K-mean è molto sensibile al rumore e ai valori anomali
Non è possibile calcolare la media per set di dati contenenti attributi categoriali, rendendo l'algoritmo non disponibile.
K-significa che può raggruppare solo cluster sferici
Ottimizzazione delle medie K
Per risolvere il problema della bassa velocità di calcolo quando il set di dati è troppo grande
Metodo: campionare casualmente il set di dati più volte e raggruppare ciascun sottoinsieme campionato utilizzando medie K fino a quando il centro del cluster diventa stabile (MiniBatchKMeans)
Passaggi dell'algoritmo MiniBatchKMeans
Passaggio 1: campionamento casuale del set di campioni
Passaggio 2: K-significa
Passaggio 3: ripetere i passaggi 1 e 2 finché il centro del cluster non diventa stabile.
Per il problema che la media non può essere calcolata quando l'attributo è di tipo categoriale
Metodo: sostituire la media calcolando la moda (modalità K)
Per i set di dati in cui è difficile determinare il numero di cluster K
Metodo: calcolare il centro del cluster attraverso il valore medio dei campioni in una determinata area e aggiornare continuamente il centro del cluster finché non diventa stabile (Mean-Shift)
Passi dell'algoritmo Mean-Shift
Passaggio 1: selezionare casualmente un punto campione e calcolare il vettore medio delle distanze da altri punti campione ad esso:
Passo 2: spostare la posizione del punto campione in base al vettore medio, quindi calcolare nuovamente il vettore medio della distanza dagli altri punti campione fino a quando il valore assoluto del vettore medio è sufficientemente piccolo o il punto campione non può essere spostato .
Passaggio 3: ripetere i passaggi 1 e 2 finché non vengono attraversati tutti i punti campione
Ottimizzazione dello spostamento medio
Per il calcolo del vettore medio non viene considerato il contributo di altri punti campione al punto campione corrente.
Utilizzare la funzione del kernel gaussiano per misurare il contributo di altri punti campione al punto campione corrente: