心智圖資源庫 K-means
K-means聚類演算法原理及拓展。演算法思想:針對給定的資料物件集,依照資料物件之間的距離大小,將資料物件集分成K個簇,讓簇內的點盡量緊密的連在一起,而讓簇間的距離盡量的大。
編輯於2023-12-23 14:03:33Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Einhundert Jahre Einsamkeit ist das Meisterwerk von Gabriel Garcia Marquez. Die Lektüre dieses Buches beginnt mit der Klärung der Beziehungen zwischen den Figuren. Im Mittelpunkt steht die Familie Buendía, deren Wohlstand und Niedergang, interne Beziehungen und politische Kämpfe, Selbstvermischung und Wiedergeburt im Laufe von hundert Jahren erzählt werden.
Projektmanagement ist der Prozess der Anwendung von Fachwissen, Fähigkeiten, Werkzeugen und Methoden auf die Projektaktivitäten, so dass das Projekt die festgelegten Anforderungen und Erwartungen im Rahmen der begrenzten Ressourcen erreichen oder übertreffen kann. Dieses Diagramm bietet einen umfassenden Überblick über die 8 Komponenten des Projektmanagementprozesses und kann als generische Vorlage verwendet werden.
K-means
簡介
演算法思想:針對給定的資料物件集,依照資料物件之間的距離大小,將資料物件集分成K個簇,讓簇內的點盡量緊密的連在一起,而讓簇間的距離盡量的大
圖解:
演算法步驟
第一步:選擇K個簇的初始中心
第二步:計算各樣本到K個初始中心的距離,並歸於距離最近的簇
第三步:重新計算簇的中心(簇中樣本的平均值)
第四步:循環步驟二、步驟三,直到所有樣本不再變化
圖解:
K-means需要思考的幾個問題
簇的數量如何決定?
方法一:手肘法(計算各K值下模型的SSE,選擇SSE變化最小的K值)
圖解:
方法二:輪廓係數(計算各K值下模型的輪廓係數,選擇輪廓係數最大的K值)
思想:透過考察簇的分離情況與緊密情況進行聚類評估
圖解:
初始中心如何確定?
方法一:隨機選擇
方法二:指定位置
方法三:K-means
思想:選取初始中心時,盡可能使各初始中心距離較遠
圖解:
K-means的優缺點
優點
針對大型資料集同樣簡單且有效率、時間複雜度、空間複雜度低
演算法的可解釋度較強
缺點
資料集大時計算速度較慢且結果容易局部最優
K-means對K值的數量與初始中心的位置較為敏感
K-means對雜訊和離群值非常敏感
面對含分類型屬性的資料集無法計算平均值,導致演算法無法使用
K-means只能聚集出球形簇
K-means的優化
針對資料集過大計算速度緩慢的問題
方法:多次對資料集隨機抽樣,每次抽樣的子集均採用K-means進行聚類,直到簇中心趨於穩定為止(MiniBatchKMeans)
MiniBatchKMeans演算法步驟
第一步:樣本集隨機取樣
第二步:K-means
第三步:循環步驟一、二,直到簇中心趨於穩定
針對屬性為分類型無法計算平均值的問題
方法:透過計算眾數取代平均值(K-mode)
針對難以確定聚類個數K的資料集
方法:透過給定區域中的樣本的平均值計算聚類中心,並不斷更新聚類中心,直到聚類中心趨於穩定為止(Mean-Shift)
Mean-Shift演算法步驟
第一步:隨機選取一個樣本點,計算其他樣本點到它的距離的平均向量:
第二步:根據平均值向量,移動樣本點的位置,再次計算其他樣本點到它的距離的平均值向量,直到平均值向量的絕對值足夠小或樣本點無法移動為止
第三步:重複步驟一、二,直到遍歷完所有的樣本點
Mean-Shift優化
針對平均值向量的計算,沒考慮其他樣本點對目前樣本點的貢獻
透過高斯核函數度量其他樣本點對目前樣本點的貢獻度: