當前位置:成語大全網 - 漢語詞典 - 分類和聚類的區別及其常用算法

分類和聚類的區別及其常用算法

1,分類和聚類的區別:

分類,對於壹個分類器,妳通常需要告訴它壹些例子比如“這個東西分壹定的類”。理想情況下,分類器將從它獲得的訓練集中“學習”,從而有能力對未知數據進行分類。這個提供訓練數據的過程通常被稱為監督學習。

聚類簡單地說就是將相似的事物歸為壹組。聚類的時候,我們並不關心某個類別是什麽。我們需要實現的只是把相似的東西湊在壹起。所以壹個聚類算法通常只需要知道如何計算相似度,所以聚類通常不需要使用訓練數據進行學習,這就是機器學習中的無監督學習。

2.常見的分類和聚類算法

所謂分類,簡單來說就是將文本按照其特征或屬性劃分到已有的類別中。比如在NLP中,我們經常提到的文本分類就是壹個分類問題,壹般的模式分類方法都可以用於文本分類研究。常用的分類算法包括:決策樹分類、原生貝葉斯分類器、基於支持向量機(SVM)的分類器、神經網絡方法、k-最近鄰(kNN)、模糊分類等。

分類作為壹種有監督的學習方法,要求每個類別的信息必須事先知道得很清楚,並且斷言所有要分類的項目都有壹個類別與之對應。但在很多情況下,上述條件並不能滿足,尤其是在處理海量數據時。如果數據通過預處理達到分類算法的要求,成本是很高的。這時候可以考慮聚類算法。

K-means聚類是最典型的聚類算法(當然還有很多其他的聚類算法,比如K-MEDOIDS算法,CLARANS算法;BIRCH算法、CURE算法、變色龍算法等。基於密度的方法:DBSCAN算法、光學算法、DENCLUE算法等。基於網格的方法:STING算法、CLIQUE算法、WAVE-CLUSTER算法;基於模型的方法)。