當前位置:成語大全網 - 成語詞典 - 技巧 - 分詞 - 中英文分詞的區別

技巧 - 分詞 - 中英文分詞的區別

1、根據空格拆分單詞(split)

2、刪除停止詞

3、提取詞幹(最終得到特征的壹步token、 term)

例子:Machine learning is a field of computer science that uses statistical techniques to givecomputer systems the ability to learn from data.

步驟1: 英文由標點符號、空格、單詞組成,所以只用根據空格和標點符號將詞語分開。

步驟2: 刪除停止詞

停止詞: stop words

在英文中 is a of that to with from

使用頻率比較高的詞語,實際上是冠詞、介詞、連詞,如果將這些詞語都放入模型當中進行訓練,那麽會大幅度影響模型的訓練效率。

(machine, learning, field, computer, science, uses, statistical, techniques, systems,ability, learn, data}

步驟3: 提取詞幹

這壹步主要針對的是西方語言來說的(英語、拉丁語、法語等等)。用以上例子來說,learning, learn包含了相同的詞幹learn,所以在大多數提取特征的方法中,會將learn和learning合並為- -壹個term。(machine, learn, field, computer, science, use, statistical, technique, system, ability,data }

和英文不同,中文語句是由連續的字符組成序列後呈現的,沒有像英文壹樣的分隔符,所以相對來說,中文分詞要稍微的困難壹些。

壹句沒有標點符號的句子,如果加上的標點符號不同,意思千差萬別。

例子: 無米面也可無雞鴨也可無魚肉也可無銀錢也可

無米面也可,無雞鴨也可,無魚肉也可,無銀錢也可。

無米,面也可;無雞,鴨也可;無魚,肉也可;無銀,錢也可。

對於目前的中文分詞來說,許多網絡用語也比較難以分割。不明|覺|厲。

在python當中,我們使用了 jieba分詞

jieba分詞的原理

1、基於trie樹結構實現高效的詞圖掃描,生成句子中漢字所有可能成詞情況所構成的有向無環圖DAG;

2、采用動態規劃查找最大路徑、找出基於詞頻的最大切分組合。

3、對於未登錄詞,采用了基於HMM或者最大熵模型等來實現分詞。