/解霸庫的分詞原理是用壹個中文詞庫,把要分詞的內容和分詞詞庫進行比較,通過圖結構和動態規劃的方法,找到概率最大的短語。除了分詞,街霸還提供了自定義中文單詞的功能。(不知道下劃線的兩種方法是什麽...)
/jieba庫支持三種分詞模式:
精準模式:最精準的切句,適合文本分析。
全模式:掃描壹個句子中所有能做詞的詞,速度快,但不能消除歧義。
搜索引擎模式:在精確模式的基礎上,對長詞進行再次切分,提高召回率,適用於搜索引擎分詞。
/jieba庫中常用的分詞功能:
1.jieba.cut(s):精確模式,返回叠代數據類型。
2.jieba.cut(s,cut_all=True): Full模式,輸出文本s中所有可能的單詞.
3.jieba.cut_for_search(s):搜索引擎模式,適用於搜索引擎構建索引分詞結果。
4.jieba.lcut(s):精確模式,返回列表類型(推薦)。
5.jieba.lcut(s,cut_all=True):完全模式,返回列表類型(推薦)。
6.jieba.lcut_for_search(s):搜索引擎模式,返回列表類型(推薦)。
7.jierba.add_word(w):在分詞詞典中添加壹個新單詞w。