當前位置:成語大全網 - 書法字典 - 中文分詞的技術難點

中文分詞的技術難點

有了壹個成熟的分詞算法,是不是就可以輕松解決中文分詞的問題了?這與事實相去甚遠。中文是壹種非常復雜的語言,讓計算機理解就更難了。在中文分詞的過程中,有兩大問題尚未完全突破。歧義是指同壹個句子,可能有兩種或兩種以上的切分方法。歧義主要有兩種:交集型歧義和組合型歧義,比如表面的,因為“面”和“面”是詞,那麽這個短語就可以分為“面”和“面”。這種歧義被稱為交叉歧義。這種交集歧義很常見,上面提到的“和服”的例子,其實就是交集歧義造成的誤差。“妝與衣”可分為“妝與衣”或“妝與衣”。因為沒有人有知識去理解,所以計算機很難知道哪個方案是正確的。

與組合歧義相比,交集型歧義相對容易處理,組合歧義必須根據整個句子來判斷。比如,在“這個門把手壞了”這句話裏,“把手”是壹個詞,但在“請把手拿開”這句話裏,“把手”不是壹個詞;在“將軍任命了壹個中將”這句話裏,“中將”是壹個詞,但在“三年後產量將增加兩倍”這句話裏,“中將”已經不是壹個詞了。計算機如何識別這些單詞?

如果交集型歧義和組合型歧義都可以用計算機解決,那麽歧義中還有壹個難題,就是真歧義。真正的歧義是給壹個句子,人們不知道哪個應該是單詞,哪個不是。比如“乒乓球拍賣結束”可以分為“乒乓球拍賣完了”或者“乒乓球拍賣結束了”。如果沒有上下文中的其他句子,恐怕沒有人知道“拍賣”在這裏是不是壹個詞。命名實體(人名、地名)、新詞、專業術語稱為未註冊詞。也就是那些沒有收錄在分詞詞典裏,但確實可以稱之為詞的詞。最典型的是人名,人們很容易理解。在句子“王去了廣州”中,“王”是壹個詞,因為它是壹個人的名字,但計算機很難識別它。如果把“王”作為壹個詞收錄到字典裏,全世界的名字那麽多,而且每時每刻都有新的名字出現,收錄這些名字是壹個不經濟的龐大工程。即使這項工作能夠完成,仍然會有問題。比如“王軍虎頭虎腦”這句話裏的“王”能算作壹個詞嗎?

除了人名之外,還有機構名稱、地名、產品名稱、品牌名稱、縮寫、省略號等等,這些都是非常難處理的,而這些只是人們經常使用的詞,所以搜索引擎在分詞系統中識別新詞是非常重要的。新詞識別的準確率已經成為評價分詞系統質量的重要指標之壹。