心智圖資源庫 層次聚類
層次聚類是一種聚類演算法,其基本思想是:將待分類的所有觀測值(或樣品)視為一個初始的聚類群體,然後根據某種聚類準則,將這個聚類群體按照層次方式依序分解為若干個子群,直到滿足某種終止條件為止。
編輯於2023-12-23 14:06:33Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
層次聚類
簡介
演算法思想:依照某種方法進行層次劃分,直到滿足某種條件為止
圖解:
兩種層次聚類方法
凝聚法
演算法想法:自底向上,首先將每個物件作為一個簇,然後將簇合併為越來越大的簇,直到所有物件都在一個簇或滿足某個終止條件
演算法步驟
第一步:計算各個樣本間的距離
第二步:距離最小的兩個樣本聚集為一類,即簇C1
第三步:計算其他樣本到C1的距離
簇之間的距離測量方法
方法一:最短距離法(簇Ci與簇Cj中樣本的距離最小值作為簇間距離)
方法二:最長距離法(簇Ci與簇Cj中樣本的距離最大值為簇間距離)
方法三:類別平均法(簇Ci與簇Cj中所有樣本的距離的平均值作為簇間距離)
方法四:中心法(簇Ci與簇Cj的中心點(簇中樣本平均值)的距離作為簇間距離)
第四步:循環步驟二、三,直到所有物件都在一個簇或滿足某個終止條件
圖解:
分裂法
演算法想法:自頂向下,首先將所有物件置於同一個簇裡,然後逐漸劃分為越來越小的簇,直到每個物件自成一簇或滿足某個終止條件
演算法步驟
第一步:將所有樣本歸為一簇,計算各個樣本的距離,選取距離最遠的兩個樣本
第二步:將距離最遠的兩個樣本分成兩個簇,計算其他樣本到兩個簇的距離
距離度量方法與凝聚法如出一轍
第三步:其他樣本劃分到距離較近的簇
第四步:循環步驟二、步驟三,直到每個物件自成一簇或滿足某個終止條件
圖解:
層次聚類的優缺點
優點
距離和規則的相似度容易定義
不需要預先制定聚類數
可以發現類別的層次關係
缺點
計算複雜度太高,資料量過大無法適用
模型對異常值較為敏感
聚類形狀偏向鏈狀
最佳化
針對層次聚類資料量過大無法使用問題
方法:採用多階段聚類技術,以增量的方式進行聚類大幅減少聚類時間,即BIRCH演算法
增量:每一個資料點的聚類的決策都是基於目前已經處理過的資料點,而不是基於全局的資料點
BIRCH演算法
演算法原理:聚類特徵使用3元組進行一個簇的相關信息,透過建構滿足分枝因子和簇直徑限制的聚類特徵樹來求聚類,每一個葉子節點就是一個簇
幾個概念
聚類特徵(CF)
定義:CF是一個三元組,可以用(N,LS,SS)表示。其中N代表了這個CF中擁有的樣本數;LS代表了這個CF中擁有的樣本點各特徵維度的和向量,SS代表了這個CF中擁有的樣本點各特徵維度的平方和
性質:滿足線性關係,即CF1 CF2=(N1 N2,LS1 LS2,SS1 SS2)
舉例:設某一CF包含5個二維度特徵樣本(3,4), (2,6), (4,5), (4,7), (3,8)
CF的N=5
CF的LS=(3 2 4 4 3,4 6 5 7 8)=(16,30)
CF的SS=(3^2 2^2 4^2 4^2 3^2 4^2 6^2 5^2 7^2 8^2)=54 190=244
聚類特徵樹(CF-tree)
定義:葉節點為簇,非葉節點儲存了其後代的CF總和
CF Tree的參數
非葉節點最大個數:B(分支因子)
每個葉節點包含的最大CF數:L
葉節點每個CF的最大半徑閾值:T
CF-tree的創建過程
第一步:讀入第一個樣本,將其納入新的三元組LN1
圖解:
第二步:讀入第二個樣本,如果它與前一個樣本在半徑為T的球體內,則置為同一個三元組,否則生成新的三元組LN2
圖解:
第三步:如果新樣本它離LN1節點最近,但都不再SC1,SC2,SC3的超球體半徑T內,且L=3,則需要進行分裂
圖解:
第四步:LN1裡所有CF元組中,找到兩個最遠的CF做這兩個新葉節點的種子CF,然後將LN1節點裡所有CF sc1, sc2, sc3,以及新樣本點的新元群組sc6劃分到兩個新的葉子節點上
圖解:
第五步:循環步驟二、三、四,直到滿足終止條件
優缺點
優點
聚類速度快,可以辨識噪音點
線性可伸縮性,聚類品質較好
缺點
只能處理數值數據
對資料的輸入次序敏感
簇非球形時效果不好