Galleria mappe mentale clustering gerarchico
Il clustering gerarchico è un algoritmo di clustering. La sua idea di base è quella di considerare tutte le osservazioni (o campioni) da classificare come un gruppo di clustering iniziale e quindi classificare questo gruppo di clustering gerarchicamente secondo un determinato criterio di clustering girare finché non siano soddisfatte determinate condizioni di risoluzione.
Modificato alle 2023-12-23 14:06:33個人求職簡歷模板的暗黑配色方案,包括個人簡介、職業規劃、行業經驗、自我評價等多個部分,讓你的簡歷更出彩。使用模板可以極大地提高效率,用戶不需要從頭開始設計結構和內容,只需在模板的基礎上填寫或添加自己的信息即可,這樣可以節省大量的時間和精力,歡迎參考使用!持續分享給大家……
Se non sai come scrivere un articolo, sarai nei guai come manager dei sistemi informativi. Una guida passo passo su come scrivere un documento sulla gestione del rischio. Se ne hai bisogno, ritiralo velocemente!
Il programma dietetico formula un programma dietetico scientifico e ragionevole per soddisfare i nutrienti e l'energia richiesti dal corpo, mantenendo così una buona salute e una buona postura.
個人求職簡歷模板的暗黑配色方案,包括個人簡介、職業規劃、行業經驗、自我評價等多個部分,讓你的簡歷更出彩。使用模板可以極大地提高效率,用戶不需要從頭開始設計結構和內容,只需在模板的基礎上填寫或添加自己的信息即可,這樣可以節省大量的時間和精力,歡迎參考使用!持續分享給大家……
Se non sai come scrivere un articolo, sarai nei guai come manager dei sistemi informativi. Una guida passo passo su come scrivere un documento sulla gestione del rischio. Se ne hai bisogno, ritiralo velocemente!
Il programma dietetico formula un programma dietetico scientifico e ragionevole per soddisfare i nutrienti e l'energia richiesti dal corpo, mantenendo così una buona salute e una buona postura.
clustering gerarchico
introduzione
Idea algoritmica: dividere le gerarchie secondo un certo metodo finché non vengono soddisfatte determinate condizioni
Illustrazione:
Due metodi di clustering gerarchico
metodo di agglomerazione
Idea dell'algoritmo: dal basso verso l'alto, trattare prima ogni oggetto come un cluster, quindi unire i cluster in cluster sempre più grandi finché tutti gli oggetti non si trovano in un cluster o soddisfano una determinata condizione di terminazione
Passi dell'algoritmo
Passaggio 1: calcolare la distanza tra ciascun campione
Passaggio 2: i due campioni con la distanza più piccola vengono raggruppati in un'unica categoria, ovvero il cluster C1
Passaggio 3: calcolare la distanza dagli altri campioni a C1
Metodo di misurazione della distanza tra cluster
Metodo 1: Metodo della distanza più breve (la distanza minima tra i campioni nel cluster Ci e nel cluster Cj viene utilizzata come distanza tra cluster)
Metodo 2: Metodo della distanza più lunga (la distanza massima tra i campioni nel cluster Ci e nel cluster Cj viene utilizzata come distanza tra cluster)
Metodo 3: Metodo della media delle classi (la media delle distanze tra il cluster Ci e tutti i campioni nel cluster Cj viene utilizzata come distanza tra cluster)
Metodo 4: Metodo del centro (la distanza tra i punti centrali del cluster Ci e del cluster Cj (il valore medio dei campioni nel cluster) viene utilizzata come distanza tra cluster)
Passaggio 4: ripetere i passaggi 2 e 3 finché tutti gli oggetti non si trovano in un cluster o non soddisfano una determinata condizione di terminazione
Illustrazione:
metodo di divisione
Idea dell'algoritmo: dall'alto verso il basso, posizionare prima tutti gli oggetti nello stesso cluster, quindi dividerli gradualmente in cluster sempre più piccoli finché ciascun oggetto non forma un cluster a sé stante o soddisfa una determinata condizione di terminazione
Passi dell'algoritmo
Passaggio 1: raggruppare tutti i campioni in un cluster, calcolare la distanza tra ciascun campione e selezionare i due campioni con la distanza più lontana.
Passaggio 2: dividere i due campioni più lontani in due cluster e calcolare le distanze degli altri campioni dai due cluster.
Il metodo di misurazione della distanza è esattamente lo stesso del metodo di agglomerazione
Passaggio 3: dividere gli altri campioni in cluster più vicini
Passaggio 4: ripetere i passaggi 2 e 3 finché ciascun oggetto non forma un cluster o soddisfa una determinata condizione di terminazione.
Illustrazione:
Vantaggi e svantaggi del clustering gerarchico
vantaggio
La distanza e la somiglianza delle regole sono facili da definire
Non è necessario specificare in anticipo il numero di cluster
Puoi scoprire la relazione gerarchica delle classi
discordanza
La complessità computazionale è troppo elevata e la quantità di dati è troppo grande per essere applicabile.
Il modello è più sensibile ai valori anomali
La forma del grappolo tende ad essere a catena
ottimizzazione
Mira al problema che i dati del clustering gerarchico sono troppo grandi per essere utilizzati
Metodo: utilizzare la tecnologia di clustering multistadio per eseguire il clustering in modo incrementale per ridurre notevolmente i tempi di clustering, ovvero l'algoritmo BIRCH
Incrementale: la decisione di clustering di ciascun punto dati si basa sui punti dati attualmente elaborati, anziché sui punti dati globali.
Algoritmo della BETULLA
Principio dell'algoritmo: le funzionalità di clustering utilizzano 3 tuple per ottenere informazioni rilevanti su un cluster. Il clustering si ottiene costruendo un albero di funzionalità di clustering che soddisfa i vincoli del fattore di ramificazione e del diametro del cluster. Ciascun nodo foglia è un cluster.
diversi concetti
Funzionalità di clustering (CF)
Definizione: CF è una tripletta, che può essere rappresentata da (N, LS, SS). Tra questi, N rappresenta il numero di campioni in questo CF; LS rappresenta il vettore somma di ciascuna dimensione caratteristica dei punti campione in questo CF, e SS rappresenta la somma dei quadrati di ciascuna dimensione caratteristica dei punti campione in questo CF.
Proprietà: Soddisfa la relazione lineare, ovvero CF1 CF2=(N1 N2,LS1 LS2,SS1 SS2)
Esempio: supponiamo che un certo CF contenga 5 campioni di caratteristiche bidimensionali (3,4), (2,6), (4,5), (4,7), (3,8)
N=5 di CF
LS di CF=(3 2 4 4 3,4 6 5 7 8)=(16,30)
SS di CF=(3^2 2^2 4^2 4^2 3^2 4^2 6^2 5^2 7^2 8^2)=54 190=244
Albero delle caratteristiche del cluster (albero CF)
Definizione: i nodi foglia sono cluster e i nodi non foglia memorizzano la somma CF dei loro discendenti.
Parametri dell'albero CF
Numero massimo di nodi non foglia: B (fattore di ramificazione)
Il numero massimo di CF contenuti in ciascun nodo foglia: L
Soglia di raggio massimo per ogni CF di nodi foglia: T
Processo di creazione dell'albero CF
Passaggio 1: leggere il primo campione e incorporarlo nella nuova tripletta LN1
Illustrazione:
Passaggio 2: leggere il secondo campione Se si trova all'interno di una sfera con raggio T come il campione precedente, impostarlo sulla stessa tripletta. Altrimenti, generare una nuova tripletta LN2.
Illustrazione:
Passaggio 3: se il nuovo campione è più vicino al nodo LN1, ma non si trova più all'interno del raggio dell'ipersfera T di SC1, SC2 e SC3 e L=3, deve essere diviso.
Illustrazione:
Passo 4: Tra tutte le tuple CF in LN1, trovare i due CF più lontani come CF seme di questi due nuovi nodi foglia, quindi aggiungere tutti i CF sc1, sc2, sc3 nel nodo LN1, nonché i nuovi elementi del nuovo punto campione. Il gruppo sc6 è diviso in due nuovi nodi foglia
Illustrazione:
Passaggio 5: ripetere i passaggi 2, 3 e 4 finché non viene soddisfatta la condizione di terminazione
Vantaggi e svantaggi
vantaggio
La velocità di clustering è elevata ed è possibile identificare i punti di rumore
Scalabilità lineare, buona qualità di clustering
discordanza
Può gestire solo dati numerici
Sensibile all'ordine di immissione dei dati
Non funziona bene quando i cluster non sono sferici