自動分詞的匹配法

最大匹配法

亦稱MM法；其基本思想是這樣的，假設自動分詞詞典（或詞庫）中的最

長詞條是i個字，則取被處理材料當前字符串序列中的前i個字作為匹配字段，查找詞

典，若詞典中存在這樣的壹個i字詞，則匹配成功，匹配字段被作為壹個詞切分出來；

如果在詞典中找不到這樣壹個i字詞，則匹配失敗，匹配字段去掉最後壹個字，剩下的

字段重新進行匹配，如此進行下去，直到匹配成功，也就是完成壹輪匹配，切分出壹個

詞為止。

這種分詞方法，在由北京航空學院等十多個單位協同進行的我國第壹次大規模現代漢語

詞頻統計工作中，實現了我國第壹個自動分詞系統CDWS。

逆向最大匹配法

亦稱OMM法，或RMM，IMM法；其基本原理和MM法相同，不同的是分

詞切分方向；它從被處理材料的末端開始匹配，每次取最末端的i個字作為匹配字段，

匹配失敗則去掉最前面的壹個字。OMM法要求配置逆序分詞詞典。

逐詞遍歷匹配法

它把詞典中的詞按照由長到短遞減的順序逐個搜索匹配整個代處

理材料，直到把所有的詞都切分出來為止。

正向最佳匹配法和逆向最佳匹配法

最佳匹配法的出發點，是在詞典中按詞頻的大

小排列詞條，以求縮短對分詞詞典的搜索時間，達到最佳效果，從而降低分詞的時間復

雜度，以加快分詞速度。實際上，這是對分詞詞典預先進行的壹種加工，也不是純粹意

義上的壹種分詞方法。

相关文章