與組合歧義相比,交集型歧義相對容易處理,組合歧義必須根據整個句子來判斷。比如,在“這個門把手壞了”這句話裏,“把手”是壹個詞,但在“請把手拿開”這句話裏,“把手”不是壹個詞;在“將軍任命了壹個中將”這句話裏,“中將”是壹個詞,但在“三年後產量將增加兩倍”這句話裏,“中將”已經不是壹個詞了。計算機如何識別這些單詞?
如果交集型歧義和組合型歧義都可以用計算機解決,那麽歧義中還有壹個難題,就是真歧義。真正的歧義是給壹個句子,人們不知道哪個應該是單詞,哪個不是。比如“乒乓球拍賣結束”可以分為“乒乓球拍賣完了”或者“乒乓球拍賣結束了”。如果沒有上下文中的其他句子,恐怕沒有人知道“拍賣”在這裏是不是壹個詞。命名實體(人名、地名)、新詞、專業術語稱為未註冊詞。也就是那些沒有收錄在分詞詞典裏,但確實可以稱之為詞的詞。最典型的是人名,人們很容易理解。在句子“王去了廣州”中,“王”是壹個詞,因為它是壹個人的名字,但計算機很難識別它。如果把“王”作為壹個詞收錄到字典裏,全世界的名字那麽多,而且每時每刻都有新的名字出現,收錄這些名字是壹個不經濟的龐大工程。即使這項工作能夠完成,仍然會有問題。比如“王軍虎頭虎腦”這句話裏的“王”能算作壹個詞嗎?
除了人名之外,還有機構名稱、地名、產品名稱、品牌名稱、縮寫、省略號等等,這些都是非常難處理的,而這些只是人們經常使用的詞,所以搜索引擎在分詞系統中識別新詞是非常重要的。新詞識別的準確率已經成為評價分詞系統質量的重要指標之壹。