當前位置:成語大全網 - 新華字典 - 三分鐘看懂密度峰值聚類算法

三分鐘看懂密度峰值聚類算法

假設待聚類的數據集:X = (?1, ?2, … , ?n)

1.計算每個節點的兩個指標:

1)局部密度?:原論文中給的公式

?其中,表示點?與?之間的距離,而?表示截斷距離

不難看出, 局部密度?就是與節點?距離小於等於?的節點的個數

? 2)相對距離?:相對距離?表示密度比?大而離?最近的點與?之間的距離

2.聚類點選取

聚類過程如下圖所示

左圖為原始的數據集,右圖是以局部密度?為橫坐標,相對距離?為縱坐標的決策圖,選擇具有較高值?和?的點作為聚類中心

3.聚類

其他非聚類中心點歸類到比他們的密度更大的且距離最近類中心所屬的類別中

4.可以看出,整個聚類思想相對來說比較簡單。但是存在幾個問題:

1)截斷距離dc的選取需要人工選取,它的值會對聚類結果產生影響

2)聚類點的選取需要人工取,限制其在大規模數據集上的應用