jieba分詞

jieba庫是壹款優秀的 Python 第三方中文分詞庫，jieba 支持三種分詞模式：精確模式、全模式和搜索引擎模式。

1、精確模式：試圖將語句最精確的切分，不存在冗余數據，適合做文本分析。

2、全模式：將語句中所有可能是詞的詞語都切分出來，速度很快，但是存在冗余數據。

3、搜索引擎模式：在精確模式的基礎上，對長詞再次進行切分，提高召回率，適合用於搜索引擎分詞。

分詞主要功能

jieba分詞的主要功能有如下幾種：

1.jieba.cut：該方法接受三個輸入參數：需要分詞的字符串; cut_all 參數用來控制是否采用全模式；HMM參數用來控制是否適用HMM模型

2. jieba.cut_for_search：該方法接受兩個參數：需要分詞的字符串；是否使用HMM模型，該方法適用於搜索引擎構建倒排索引的分詞，粒度比較細。

3. 待分詞的字符串可以是unicode或者UTF－8字符串，GBK字符串。註意不建議直接輸入GBK字符串，可能無法預料的誤解碼成UTF－8

4. jieba.cut 以及jieba.cut_for_search返回的結構都是可以得到的generator(生成器), 可以使用for循環來獲取分詞後得到的每壹個詞語或者使用

5. jieb.lcut 以及 jieba.lcut_for_search 直接返回list

6. jieba.Tokenizer(dictionary=DEFUALT_DICT) 新建自定義分詞器，可用於同時使用不同字典，jieba.dt為默認分詞器，所有全局分詞相關函數都是該分詞器的映射。