當前位置:成語大全網 - 漢語詞典 - 分詞技術的原理

分詞技術的原理

百度如何分詞?如今分詞技術已經非常成熟。分為三種技術。這是壹種常見的分詞方法,百度用的。字符串匹配的分詞方法可以分為三種。

(1).正向最大匹配法

就是把壹個字從左往右分。

例如,“我不知道妳在說什麽”

這句話用正最大匹配法怎麽分?“我不知道,妳在說什麽?”

(2)反向最大匹配法

我不知道妳在說什麽,反向最大匹配法,來講上面那段是怎麽分的。“不,我知道,妳在說什麽?”,這個比較分,反向最大匹配法是從右到左。

(3).它是最短路徑分詞方法。

也就是說,壹個段落需要刪減的字數是最少的。

“我不知道妳在說什麽”是最短路徑分詞法,意思是把上面的句子分成最少的單詞。“我不知道,妳在說什麽?”這是最短路徑分詞法,只隔三個字。

(4)雙向最大匹配法。

有壹種特殊情況,就是前後兩個關鍵詞的組合被認為粘度差別不大,而如果搜索結果中也包含這兩組詞,百度會進行正反兩個方向的分詞匹配。根據短語的統計,妳會發現兩個相鄰的詞出現的頻率最高,所以這個詞很重要。可以作為用戶提供的字符串中的分隔符,從而分割單詞。

比如“我的,妳的,很多,這裏,這個,那裏”等等,這些詞出現的頻率比較高,所以從這些詞中分離出來。