中文分詞的技術難點

有了壹個成熟的分詞算法，是不是就可以輕松解決中文分詞的問題了？這與事實相去甚遠。中文是壹種非常復雜的語言，讓計算機理解就更難了。在中文分詞的過程中，有兩大問題尚未完全突破。歧義是指同壹個句子，可能有兩種或兩種以上的切分方法。歧義主要有兩種:交集型歧義和組合型歧義，比如表面的，因為“面”和“面”是詞，那麽這個短語就可以分為“面”和“面”。這種歧義被稱為交叉歧義。這種交集歧義很常見，上面提到的“和服”的例子，其實就是交集歧義造成的誤差。“妝與衣”可分為“妝與衣”或“妝與衣”。因為沒有人有知識去理解，所以計算機很難知道哪個方案是正確的。

與組合歧義相比，交集型歧義相對容易處理，組合歧義必須根據整個句子來判斷。比如，在“這個門把手壞了”這句話裏，“把手”是壹個詞，但在“請把手拿開”這句話裏，“把手”不是壹個詞；在“將軍任命了壹個中將”這句話裏，“中將”是壹個詞，但在“三年後產量將增加兩倍”這句話裏，“中將”已經不是壹個詞了。計算機如何識別這些單詞？

如果交集型歧義和組合型歧義都可以用計算機解決，那麽歧義中還有壹個難題，就是真歧義。真正的歧義是給壹個句子，人們不知道哪個應該是單詞，哪個不是。比如“乒乓球拍賣結束”可以分為“乒乓球拍賣完了”或者“乒乓球拍賣結束了”。如果沒有上下文中的其他句子，恐怕沒有人知道“拍賣”在這裏是不是壹個詞。命名實體(人名、地名)、新詞、專業術語稱為未註冊詞。也就是那些沒有收錄在分詞詞典裏，但確實可以稱之為詞的詞。最典型的是人名，人們很容易理解。在句子“王去了廣州”中，“王”是壹個詞，因為它是壹個人的名字，但計算機很難識別它。如果把“王”作為壹個詞收錄到字典裏，全世界的名字那麽多，而且每時每刻都有新的名字出現，收錄這些名字是壹個不經濟的龐大工程。即使這項工作能夠完成，仍然會有問題。比如“王軍虎頭虎腦”這句話裏的“王”能算作壹個詞嗎？

除了人名之外，還有機構名稱、地名、產品名稱、品牌名稱、縮寫、省略號等等，這些都是非常難處理的，而這些只是人們經常使用的詞，所以搜索引擎在分詞系統中識別新詞是非常重要的。新詞識別的準確率已經成為評價分詞系統質量的重要指標之壹。