中文分詞是中文文本處理的壹項基礎工作,口吃分詞用於中文分詞。其基本實現原理有三點:
基於Trie樹結構實現高效的詞圖掃描,生成由漢字在句子中所有可能的構詞情況組成的有向無環圖。
動態規劃用於尋找最大概率路徑,並基於詞頻找出最大切分組合。
對於未登錄詞,采用基於漢字構詞能力的HMM模型,並使用Viterbi算法。
安裝(Linux環境)
下載工具包,提取它,記錄它並運行:pythonsetup.pyinstall。
模型
默認模式試圖最準確地切割句子,適用於文本分析。
完整模式,掃描壹個句子中所有可以成為單詞的單詞,適用於搜索引擎。
嚙合/界面
組件僅提供了用於分詞的jieba.cut方法。
cut方法接受兩個輸入參數:
第壹個參數是要分段的字符串。
cut_all參數用於控制分詞模式。
要分段的字符串可以是gbk字符串、utf-8字符串或unicode。
jieba.cut返回的結構是壹個叠代生成器。您可以使用for循環獲取分詞後的每個單詞(unicode),也可以使用list(jieba . cut(...))將其轉換為列表。
例子
#!-*-編碼:utf-8 -*-
進口街霸
Seg_list = jieba.cut(“我來清華了”,cut_all = True)。
打印“完整模式:“、““。加入(seg_list)
Seg_list = jieba.cut(“我來清華大學了”)
打印“默認模式:“、““。加入(seg_list)