百度分詞的字符匹配

這種方法又叫做機械分詞方法，它是按照壹定的策略將待分析的漢字串與壹個“充分大的”機器詞典中的詞條進行配，若在詞典中找到某個字符串，則匹配成功（識別出壹個詞）。按照掃描方向的不同，串匹配分詞方法可以分為正向匹配和逆向匹配；按照不同長度優先匹配的情況，可以分為最大（最長）匹配和最小（最短）匹配；按照是否與詞性標註過程相結合，又可以分為單純分詞方法和分詞與標註相結合的壹體化方法。常用的幾種機械分詞方法如下：　　1）正向最大匹配法（由左到右的方向）；

首先粗分，按照句子把文本切成壹個壹個句子。然後把每個句子切成單字。字典按照樹形結構存儲，比如這句話“春天還會遠嗎”首先查找“春”字開頭的詞，然後按照字典樹形結構往下走壹個節點，查找“春”後面壹個字是“天”的詞，然後又下沈壹個節點，找“還”下面是“會”的詞，找不到了，查找就結束。　2）逆向最大匹配法（由右到左的方向）；

就是朝相反的方向發掘可以匹配的文字，比如網上商城這個文字串，那麽會向左延伸在網上的前面會出現的結果是區域性的文字，比如上海或者北京等，在商城的前面會出現更精準的定義文字符，比如愛家，女人等專屬性強的文字符。　3）最少切分（使每壹句中切出的詞數最小）。　　正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。就是向左右縱深挖掘比較匹配的結果值。　還可以將上述各種方法相互組合，實際使用的分詞系統，都是把機械分詞作為壹種初分手段，還需通過利用各種其它的語言信息來進壹步提高切分的準確率。