中文分詞技術屬於自然語言處理技術的範疇。對於壹個句子,人可以通過自己的知識理解哪些是詞,哪些不是詞,但是計算機怎麽理解呢?其處理過程是分詞算法。
現有的分詞算法可以分為三類:基於字符串匹配的分詞、基於理解的分詞和基於統計的分詞。
漢語分詞的起源
漢語分詞技術的存在是由於漢語在基礎語法上的特殊性,具體體現在:
1.與以英語為代表的拉丁語相比,英語使用空格作為自然分隔符,而漢語是不存在的。
例:“知識就是力量”可以自然地分為三個詞:知識/是/力量,每個詞都可以獨立表達自己的意思。
在漢語中,知識就是力量,由於缺少分隔符,無法按照含義對漢字進行切分:知識/是/力量。
2.在漢語中,“詞”比“單個詞”更有表現力。
現代漢語的基本表達單位是“詞”,多為雙字或多字,拆分後難以獨立表達意思。
比如機械工程,基本語義單位是“機械”和“工程”。如果按照列表分為“機器”、“機械”、“工作”、“過程”,這些詞不符合人們對漢語語義的理解,所以不符合要求。