什麽是分詞算法？

分詞算法是文本挖掘的基礎，通常對整個模型的效果起著決定性的作用。

分詞算法的兩種常用操作模式:

1，用戶搜索和匹配。

例如，如果我們在百度中搜索壹個詞“手機回收”，那麽百度首先會將該詞分為兩個詞:手機和回收。這時百度會先在數據庫中搜索手機這個詞然後進行第壹輪篩選。從網頁中刪除“手機”壹詞，只保留帶有“手機”壹詞的結果，然後從篩選的網頁中選擇帶有“回收”壹詞的網頁。然後根據獲得的結果中的頁面分數對用戶進行排名。

2.網頁主題計算

在之前的啟蒙博客中提到過，百度蜘蛛只是壹臺機器，它不能像人壹樣思考。在處理文章時，百度蜘蛛還會將文章分成詞。如果手機這個詞在文章中頻繁出現，也就是關鍵詞密度，那麽這個頁面也會被定性為手機上的文章。

搜索引擎通過分詞算法計算網頁。如果我們能夠使用分詞算法來合理布局網頁，我們將獲得壹個不錯的分數。

中文分詞算法大致可以分為三類:

第壹種基於字符串匹配，即掃描字符串。如果發現字符串的子串與字典中的單詞相同，則認為它是匹配的，例如機械分詞。這類分詞通常會加入壹些啟發式規則，如“正向/反向最大匹配”和“長詞優先”。

第二類是基於統計和機器學習的分詞方法。他們基於人工標註的詞性和統計特征對中文進行建模，即根據觀察到的數據（標註語料）訓練模型參數，然後在分詞階段通過模型計算各種分詞的概率，將概率最高的分詞結果作為最終結果。

常見的序列標註模型有HMM和CRF。這種分詞算法可以很好地處理歧義和未登錄詞，效果優於前壹種算法，但需要大量的人工標註數據，分詞速度較慢。

第三種是通過讓計算機模擬人們對句子的理解來識別單詞。由於漢語語義的復雜性，很難將各種語言信息組織成機器可以識別的形式。目前，該分詞系統仍處於實驗階段。