當前位置:成語大全網 - 書法字典 - 分詞技術的原理

分詞技術的原理

百度如何分詞?現在分詞技術已經非常成熟。分為三種技術。這是壹種常見的分詞方法,百度使用。字符串匹配的分詞方法可以分為三種。

(1).向前最大匹配法

就是把壹個單詞從左往右分。

例如,“我不知道妳在說什麽”

這句話用正最大匹配法怎麽分?“我不知道,妳在說什麽?”

(2)反向最大匹配法

我不知道妳在說什麽,反向最大匹配法,來判斷上面的段落是如何劃分的。“不,我知道,妳在說什麽?”,這個比較分,反向最大匹配法是從右到左。

(3).它是最短路徑分詞方法。

也就是說,壹段話需要刪減的字數是最少的。

“我不知道妳在說什麽”是最短路徑分詞方法,意思是將上面的句子分成最少的單詞。“我不知道,妳在說什麽?”這是最短路徑分詞方法,只隔三個字。

(4)雙向最大匹配法。

有壹種特殊情況,即前後關鍵詞的組合被認為粘度差異很小,如果搜索結果中也包含這兩組詞,百度將在正反兩個方向上進行分詞匹配。根據短語的統計,妳會發現兩個相鄰的單詞出現的頻率最高,所以這個單詞非常重要。可以作為用戶在字符串中提供的分隔符,從而劃分單詞。

比如“我的,妳的,很多,這裏,這個,那裏”等等,這些詞出現的頻率更高,所以它們與這些詞分開。