國際權威學術組織IEEE數據挖掘國際會議(ICDM)評選出了數據挖掘領域的十大經典算法:C4.5、K-means、SVM、Apriori、EM、PageRank、AdaBoost、KNN、樸素貝葉斯和Cart。
不僅是排名前十的算法,還有參與評選的18個算法,其實其中任何壹個都可以稱為經典算法,在數據挖掘領域產生了深遠的影響。今天主要分享10經典算法,內容幹巴巴的,建議收藏起來以後學習。
1.C4.5
C4.5算法是機器學習算法中的壹種分類決策樹算法,其核心算法是ID3算法。C4.5算法繼承了ID3算法的優點,並在以下方面對ID3算法進行了改進:
1)使用信息增益率來選擇屬性,克服了在選擇具有信息增益的屬性時選擇值較多的屬性的缺點。
2)建樹過程中的修剪;
3)可以完成連續屬性的離散化;
4)能夠處理不完整的數據。
C4.5算法具有以下優點:生成的分類規則易於理解且準確率高。其缺點是在構建樹的過程中,需要對數據集進行多次掃描和排序,導致算法效率低下(CART算法只需對數據集進行兩次掃描,以下僅為決策樹的優缺點)。
2.K均值算法就是K均值算法。
K-means算法是壹種聚類算法,它根據對象的屬性將N個對象分成K個分區
3.支持向量機
支持向量機,英文為Support Vector Machine,簡稱SV機(本文統稱SVM)。它是壹種監督學習方法,廣泛應用於統計分類和回歸分析。支持向量機將向量映射到壹個更高維的空間,在這個空間中建立壹個具有最大間隔的超平面。在分隔數據的超平面的兩側有兩個平行的超平面。分離超平面使兩個平行超平面之間的距離最大化。假設平行超平面之間的距離或間隙越大,分類器的總誤差越小。壹本優秀的指南是C . J.C Burges的《模式識別支持向量機指南》。範德沃特和巴納德將支持向量機與其他分類器進行了比較。
4.先驗算法
Apriori算法是挖掘布爾關聯規則頻繁項集最有影響力的算法。其核心是壹種基於兩階段頻率集思想的遞歸算法。該關聯規則在分類上屬於單維、單層、布爾型關聯規則。這裏,所有支持度大於最小支持度的項集被稱為頻繁項集,或簡稱為頻率集。
5.最大期望算法
在統計計算中,最大期望(EM)算法是壹種尋找概率模型中參數的最大似然估計的算法,其中概率模型依賴於壹個不可觀察的隱藏變量(Latent Variabl)。最大期望常用於機器學習和計算機視覺的數據聚類領域。
6.PageRank
PageRank是Google算法的重要內容。2006年9月,谷歌創始人之壹拉裏·佩奇授予他壹項美國專利。因此,pageRank中的page指的不是網頁,而是Page,即這種排名方法以Page命名。
PageRank根據網站外部鏈接和內部鏈接的數量和質量來衡量網站的價值。PageRank背後的概念是,頁面的每個鏈接都是對該頁面的投票,鏈接越多,從其他網站獲得的投票就越多。這就是所謂的“鏈接流行度”——衡量有多少人願意將他們的網站鏈接到妳的網站。PageRank的概念來源於論文在學術界的引用頻率——即論文被他人引用的次數越多,論文的權威性通常被判斷為越高。
7.adaboost算法
Adaboost是壹種叠代算法,其核心思想是為同壹訓練集訓練不同的分類器(弱分類器),然後將這些弱分類器組裝起來形成更強的最終分類器(強分類器)。算法本身是通過改變數據分布來實現的。它根據每個訓練集中每個樣本的分類是否正確以及最後壹次整體分類的準確性來確定每個樣本的權重。具有修改的權重的新數據集被發送到下層分類器進行訓練,最後將每次訓練獲得的分類器最終融合為最終的決策分類器。
8.kNN: k近鄰分類
k-最近鄰(KNN)分類算法是理論上比較成熟的方法,也是最簡單的機器學習算法之壹。該方法的思想是:如果壹個特征空間中k個最相似(即最接近)的樣本中的大部分屬於某個類別,那麽該樣本也屬於該類別。
9.樸素貝葉斯
在眾多分類模型中,使用最廣泛的兩種分類模型是決策樹模型和樸素貝葉斯模型(NBC)。樸素貝葉斯模型起源於經典數學理論,具有堅實的數學基礎和穩定的分類效率。
同時,NBC模型需要估計的參數很少,對缺失數據不敏感,算法相對簡單。理論上,與其他分類方法相比,NBC模型的錯誤率最小。但事實上並非總是如此,因為NBC模型假設屬性相互獨立,而這種假設在實際應用中往往站不住腳,這給NBC模型的正確分類帶來了壹定的影響。當屬性數量較多或屬性之間的相關性較大時,NBC模型的分類效率不如決策樹模型。當屬性相關性較小時,NBC模型的性能最好。
10.CART:分類和回歸樹
CART、分類和回歸樹。分類樹下有兩個關鍵想法。第壹個是關於遞歸劃分自變量空間的思想(二元分割法);第二個想法是使用驗證數據進行修剪(預修剪、後修剪)。基於回歸樹構建模型樹的難度可能更大,但同時其分類效果也有所提高。
參考書:實戰中的機器學習