密度可以達到
密度聚類法的指導思想是只要樣本點的密度大於壹定閾值,就將樣本加入到最近的聚類中。基於密度的聚類算法假設聚類結構可以由樣本分布的密度來確定,而聚類是基於空間中數據集的密度,即只要壹個區域中的樣本密度大於某個閾值,就將其歸類到相似的簇中。
密度聚類從樣本密度的角度考察樣本之間的連通性,從可連接的樣本開始擴展,直到得到最終的聚類結果。
這種算法可以克服基於距離的算法只能發現“類圓形”(凸形)聚類的缺點,並且可以發現任意形狀的聚類,對噪聲數據不敏感。但是計算密度單元的計算復雜度較大,需要建立空間索引來降低計算復雜度。常用的密度聚類算法:DBSCAN、MDCA、OPTICS、DENCLUE等。
DBSCAN的具體實施步驟
1.從任意數據點開始,用距離氣味值E提取該點的鄰域..
2.如果鄰域中至少有m個點,則該點是核心對象,並且包含在第壹族中。否則,該點將被標記為噪聲點(此後該噪聲點仍可能成為聚類的壹部分)。
3.對於家族中的核心對象,其鄰域中的點也包含在聚類中。對於聚類中的所有點,提取它們的鄰域以確定鄰域中的點是否也屬於當前家族。
4.將重復步驟2-3的過程,直到確定族中的所有點,也就是說,鄰域中的所有點都被標記為屬於聚類或噪聲。
5.壹旦我們在當前系列中完成了此操作,我們將從新數據點開始,然後找到下壹個聚類或噪聲。重復這個過程,直到所有的點都被訪問過,最後每個點都被標記為屬於某個聚類或噪聲。