高斯樸素貝葉斯:特征變量是連續變量,符合高斯分布,比如人的身高,物體的長度。
多項式樸素貝葉斯:特征變量是離散變量,服從多項式分布。在文檔分類中,特征變量以單詞出現的次數或單詞的TF-IDF值來表示。
TF-IDF TF術語頻率和逆向文檔頻率詞頻和逆向文檔頻率
TF計算壹個單詞在文檔中出現的次數。它認為壹個詞的重要性與它在文檔中出現的次數成正比。
IDF是指文檔中某個詞的區分度。它認為壹個詞在文檔中出現的次數越少,就越能通過這個詞與其他文檔區分開來。IDF越大,這個詞的區分度就越大。
TF =文檔中出現的單詞數/總單詞數。
IDF = log(文檔總數/(出現該單詞的文檔數+1))