當前位置:成語大全網 - 書法字典 - kmeans聚類算法的優缺點

kmeans聚類算法的優缺點

優點和缺點如下:

1優勢

K- average算法是解決聚類問題的經典算法,簡單快速。

對於處理大型數據集,該算法相對可擴展且高效,因為其復雜性約為O(nkt)O(nkt)O(nkt),其中N是所有對象的數量,K是聚類的數量,T是叠代次數。通常k《《n .這種算法通常以局部優化結束。

該算法試圖找到最小化平方誤差函數值的k個分區。當簇密集、呈球形或塊狀,且簇間差異明顯時,其聚類效果很好。

2.不足之處

對k值敏感。換句話說,k的選擇將在很大程度上影響分類效果。在聚類之前,我們需要提前設置k的大小,但我們很難確定哪些類別是最好的。例如,在上面的數據集中,它明顯分為兩類,即K = 2是最好的,但當數據量較大時,我們無法提前判斷。

對異常值和噪聲點敏感。如果將壹個噪聲點添加到上述數據集中,該噪聲點將獨立成為壹個類別。顯然,如果K=2,其余點為壹類,噪聲點為壹類,原本可以區分的點受到噪聲點的影響而成為壹類。如果K=3,噪聲點也是自包含的,其余數據分為兩類。這表明噪聲點會極大地影響其他點的分類。

聚類分析的特點

聚類分析的本質是建立壹種分類方法,它可以在沒有先驗知識的情況下,根據壹批樣本數據在自然界中的親密程度自動對它們進行分類。這裏所說的類是具有相似性的個體的集合,不同類之間存在明顯的差異。

層次聚類分析是根據觀察值或變量之間的接近程度來組合最相似的對象,並以凝聚聚類的方式對觀察值進行分類,直到所有樣本都聚為壹類。

層次聚類分析有兩種形式。壹種是對樣本(案例)進行分類,稱為Q-cluster。另壹種是對研究對象的觀察變量進行分類,稱為R聚類。