/jieba庫的分詞原理是利用壹個中文詞庫,將待分詞的內容與分詞詞庫進行比對,通過 圖結構 和 動態規劃 方法找到最大的概率的詞組.除了分詞,jieba還提供了自定義中文單詞的功能.(並不知道劃線的兩種方法是什麽......)
/jieba庫支持3種分詞模式:
精確模式:將句子最精確的切開,適合文本分析.?
全模式:把句子中所有可以成詞的詞語都掃描出來,速度快,但不能消除歧義.?
搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜索引擎分詞.?
/jieba庫常用的分詞函數:
1. jieba.cut(s) :精確模式,返回壹個可叠代的數據類型.
2. jieba.cut(s,cut_all=True) :全模式,輸出文本s中所有可能的單詞.
3. jieba.cut_for_search(s) :搜索引擎模式,適合搜索引擎建立索引的分詞結果.
4. jieba.lcut(s) :精確模式,返回壹個列表類型(建議使用).
5. jieba.lcut(s,cut_all=True) :全模式,返回壹個列表類型(建議使用).
6. jieba.lcut_for_search(s) :搜索引擎模式,返回壹個列表類型(建議使用).
7. jierba.add_word(w) :向分詞詞典中增加新詞w.