當前位置:成語大全網 - 新華字典 - 樸素貝葉斯的應用

樸素貝葉斯的應用

與決策樹模型相比,樸素貝葉斯分類器(NBC)起源於經典數學理論,具有堅實的數學基礎和穩定的分類效率。同時,NBC模型需要估計的參數少,對缺失數據不敏感,算法相對簡單。理論上,與其他分類方法相比,NBC模型的錯誤率最小。但實際上並不總是這樣,因為NBC模型假設屬性相互獨立,而這種假設在實際應用中往往是站不住腳的,這給NBC模型的正確分類帶來了壹定的影響。

解決這壹問題的方法壹般是建立壹個屬性模型,將互不獨立的屬性分開處理。比如中文文本分類識別的時候,我們可以建立壹個詞典來處理壹些短語。如果發現某個特定的問題具有特殊的模式屬性,應該單獨處理。

這也符合貝葉斯概率原理,因為我們把壹個短語看成壹個單獨的模式。比如英文文本處理壹些長短不壹的單詞也是作為壹個單獨獨立的模式來處理的,這就是自然語言和其他分類識別問題的區別。

實際計算先驗概率時,結果是壹樣的,因為這些模式是程序作為概率計算出來的,而不是人用自然語言理解的。

當屬性個數較多或屬性之間的相關性較大時,NBC模型的分類效率不如決策樹模型,但這需要驗證,因為算法對不同的具體問題得出的結果是不同的,而且只要模式發生變化,同壹算法對同壹問題的識別性能也不同。這壹點在國外很多論文中已經得到了認可,在《機器學習》壹書中也提到,屬性的識別取決於很多因素,比如影響算法性能的訓練樣本與測試樣本的比例。

決策樹用於文本分類和識別取決於具體情況。當屬性相關性較小時,NBC模型的性能略好。當屬性相關性較小時,其他算法性能較好,這是由信息熵理論決定的。