2.刪除停用詞。
3.提取詞幹(壹步令牌,$ term)。
示例:機器學習是計算機科學的壹個領域,它使用統計技術賦予計算機系統從數據中學習的能力。
第65438步+0:英語由標點符號、空格和單詞組成,所以只有單詞按照空格和標點符號分隔。
第二步:刪除停用詞。
停用詞:停用詞
在英語中是to和from的組合。
經常使用的詞實際上是冠詞、介詞和連詞。如果將這些詞放入模型中進行訓練,將大大影響模型的訓練效率。
(機器、學習、領域、計算機、科學、用途、統計、技術、系統、能力、學習、數據)
第三步:提取莖
這壹步主要針對西方語言(英語、拉丁語、法語等。).在上面的例子中,學習和學習包含相同的詞幹,因此在大多數特征提取方法中,學習和學習將合並為壹個$ term。(機器、學習、領域、計算機、科學、使用、統計、技術、系統、能力、數據)
與英語不同,中文句子是以連續字符的序列形式呈現的,並且沒有像英語那樣的分隔符,因此中文分詞相對更困難。
壹個沒有標點符號的句子如果加上不同的標點符號,意思就不壹樣了。
例句:不能有米線、雞鴨、魚和錢。
沒有米面、雞鴨、魚和錢也可以。
沒有米飯,面條也可以;沒有雞,鴨也可以用;沒有魚,肉也行;沒有銀子,有錢也行。
對於目前的中文分詞來說,很多網絡術語也很難切分。我不知道。
在python中,我們使用jieba分詞。
街霸分詞的原理
1,基於trie樹結構實現高效的詞圖掃描,生成有向無環圖DAG由漢字在句子中所有可能的構詞情況組成;
2.使用動態規劃尋找最大路徑並基於詞頻找到最大切分組合。
3.對於未登錄詞,我們使用HMM或最大熵模型來實現分詞。