當前位置:成語大全網 - 英語詞典 - 分詞是指將信息裏的關鍵詞拆分成單個的字,根據分詞後的字進行關鍵詞的擴展。

分詞是指將信息裏的關鍵詞拆分成單個的字,根據分詞後的字進行關鍵詞的擴展。

分詞是指將信息裏的關鍵詞拆分成單個的字,根據分詞後的字進行關鍵詞的擴展,是錯誤的。

分詞的意思:

中文分詞指的是將壹個漢字序列切分成壹個個單獨的詞。分詞就是將連續的字序列按照壹定的規範重新組合成詞序列的過程。

在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段能通過明顯的分界符來簡單劃界,唯獨詞沒有壹個形式上的分界符,雖然英文也同樣存在短語的劃分問題,不過在詞這壹層上,中文比之英文要復雜得多、困難得多。

分詞的作用:

中文分詞是文本挖掘的基礎,對於輸入的壹段中文,成功的進行中文分詞,可以達到電腦自動識別語句含義的效果。

中文分詞技術屬於自然語言處理技術範疇,對於壹句話,人可以通過自己的知識來明白哪些是詞,哪些不是詞,但如何讓計算機也能理解?其處理過程就是分詞算法。

分詞算法分類:

1、字符匹配

這種方法又叫做機械分詞方法,它是按照壹定的策略將待分析的漢字串與壹個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出壹個詞)。

2、理解法

這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。

在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。

3、統計法

從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成壹個詞。因此字與字相鄰***現的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰***現的各個字的組合的頻度進行統計,計算它們的互現信息。