詞是最小的能夠獨立活動的有意義的語言成分,英文單詞之間是以空格作為自然分界符的,而漢語是以字為基本的書寫單位,詞語之間沒有明顯的區分標記,因此,中文詞語分析是中文分詞的基礎與關鍵。中文和英文都存在分詞的需求,不過相較而言,英文單詞本來就有空格進行分割,所以處理起來相對方便。但是,由於中文是沒有分隔符的,所以分詞的問題就比較重要。分詞常用的手段是基於字典的最長串匹配,據說可以解決85%的問題,但是歧義分詞很難。舉個例子,“美國會通過對臺售武法案”,我們既可以切分為“美國/會/通過對臺售武法案”,又可以切分成“美/國會/通過對臺售武法案”。
中文分詞技術可分為三大類:
基於機器學習的方法裏,往往需要對詞的詞性進行標註。詞性壹般是指動詞、 名詞、形容詞等。標註的目的是表征詞的壹-種隱藏狀態,隱藏狀態構成的轉移就構成了狀態轉移序列。例如:我/r愛/v北京/ns天安門/ns。其中,ns代表名詞,v代表動詞,ns、v都是標註,以此類推。
詞性作為對詞的壹種泛化,在語言識別、句法分析、信息抽取等任務中有重要作用。
/s/QjpOzO8Mt17mtnC7efT8nQ