(1).正向最大匹配法
就是把壹個字從左往右分。
例如,“我不知道妳在說什麽”
這句話用正最大匹配法怎麽分?“我不知道,妳在說什麽?”
(2)反向最大匹配法
我不知道妳在說什麽,反向最大匹配法,來講上面那段是怎麽分的。“不,我知道,妳在說什麽?”,這個比較分,反向最大匹配法是從右到左。
(3).它是最短路徑分詞方法。
也就是說,壹個段落需要刪減的字數是最少的。
“我不知道妳在說什麽”是最短路徑分詞法,意思是把上面的句子分成最少的單詞。“我不知道,妳在說什麽?”這是最短路徑分詞法,只隔三個字。
(4)雙向最大匹配法。
有壹種特殊情況,就是前後兩個關鍵詞的組合被認為粘度差別不大,而如果搜索結果中也包含這兩組詞,百度會進行正反兩個方向的分詞匹配。根據短語的統計,妳會發現兩個相鄰的詞出現的頻率最高,所以這個詞很重要。可以作為用戶提供的字符串中的分隔符,從而分割單詞。
比如“我的,妳的,很多,這裏,這個,那裏”等等,這些詞出現的頻率比較高,所以從這些詞中分離出來。