當前位置:成語大全網 - 英語詞典 - IK和Paoding分詞器的區別

IK和Paoding分詞器的區別

可以用IKAnalyzer和PaodingAnalyzer,這兩個都有對Lucene的封裝接口,中科院的Ictclas是要收費的,而且是用DLL,和Java結合不好。

中文分詞(ChineseWordSegmentation)指的是將壹個漢字序列切分成壹個壹個單獨的詞。

分詞就是將連續的字序列按照壹定的規範重新組合成詞序列的過程。

在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有壹個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這壹層上,中文比之英文要復雜的多、困難的多。