jieba庫是壹款優秀的 Python 第三方中文分詞庫,jieba 支持三種分詞模式:精確模式、全模式和搜索引擎模式。
1、精確模式: 試圖將語句最精確的切分,不存在冗余數據,適合做文本分析。
2、全模式: 將語句中所有可能是詞的詞語都切分出來,速度很快,但是存在冗余數據。
3、搜索引擎模式: 在精確模式的基礎上,對長詞再次進行切分,提高召回率,適合用於搜索引擎分詞。
分詞主要功能
jieba分詞的主要功能有如下幾種:
1.jieba.cut:該方法接受三個輸入參數:需要分詞的字符串; cut_all 參數用來控制是否采用全模式;HMM參數用來控制是否適用HMM模型
2. jieba.cut_for_search:該方法接受兩個參數:需要分詞的字符串;是否使用HMM模型,該方法適用於搜索引擎構建倒排索引的分詞,粒度比較細。
3. 待分詞的字符串可以是unicode或者UTF-8字符串,GBK字符串。註意不建議直接輸入GBK字符串,可能無法預料的誤解碼成UTF-8
4. jieba.cut 以及jieba.cut_for_search返回的結構都是可以得到的generator(生成器), 可以使用for循環來獲取分詞後得到的每壹個詞語或者使用
5. jieb.lcut 以及 jieba.lcut_for_search 直接返回list
6. jieba.Tokenizer(dictionary=DEFUALT_DICT) 新建自定義分詞器,可用於同時使用不同字典,jieba.dt為默認分詞器,所有全局分詞相關函數都是該分詞器的映射。