中文分詞(ChineseWordSegmentation)指的是將壹個漢字序列切分成壹個壹個單獨的詞。
分詞就是將連續的字序列按照壹定的規範重新組合成詞序列的過程。
在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有壹個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這壹層上,中文比之英文要復雜的多、困難的多。