jieba庫的使用

/jieba庫是python中壹個重要的第三方中文分詞函數庫.(這名字起的,我給作者滿分)

/jieba庫的分詞原理是利用壹個中文詞庫,將待分詞的內容與分詞詞庫進行比對,通過圖結構和動態規劃方法找到最大的概率的詞組.除了分詞,jieba還提供了自定義中文單詞的功能.(並不知道劃線的兩種方法是什麽......)

/jieba庫支持3種分詞模式:

精確模式:將句子最精確的切開,適合文本分析.?

全模式:把句子中所有可以成詞的詞語都掃描出來,速度快,但不能消除歧義.?

搜索引擎模式:在精確模式的基礎上,對長詞再次切分,提高召回率,適合用於搜索引擎分詞.?

/jieba庫常用的分詞函數:

1. jieba.cut(s) :精確模式,返回壹個可叠代的數據類型.

2. jieba.cut(s,cut_all=True) :全模式,輸出文本s中所有可能的單詞.

3. jieba.cut_for_search(s) :搜索引擎模式,適合搜索引擎建立索引的分詞結果.

4. jieba.lcut(s) :精確模式,返回壹個列表類型(建議使用).

5. jieba.lcut(s,cut_all=True) :全模式,返回壹個列表類型(建議使用).

6. jieba.lcut_for_search(s) :搜索引擎模式,返回壹個列表類型(建議使用).

7. jierba.add_word(w) :向分詞詞典中增加新詞w.