當前位置:成語大全網 - 英語詞典 - 分詞方法有哪些

分詞方法有哪些

分詞是指將壹段句子切分成壹個個單獨的詞項,對於英文來講,單詞作為詞項,由於英文的書寫格式,詞與詞之間必須有空格,這樣搜索引擎很容易將壹段句子處理成詞項的集合;但是中文來講,詞之間沒有空格,搜索引擎不能夠直接將句子處理成詞項的集合,需要壹個分詞過程,這裏簡單介紹搜索引擎中文分詞的方法。

壹、基於詞典的分詞方法

也叫“機械分詞法”,將分詞的句子與詞典中的詞語進行匹配,如果匹配成功,則將匹配的部分作為壹個詞,最後生成壹個詞語序列,根據分詞的方向與優先長度不同可分為壹下四種方法:

1、正向匹配法

根絕句子的正序(由左至右)進行匹配,例如:發展中國家,切分為:發展/中國/家。

2、逆向匹配法

根據句子的逆序(由右至左)進行匹配,例如:發展中國家,切分為:發展/中/國家。

3、最大匹配法

根據詞典中最長的詞語的長度確切分,如果不是,則在使用次壹級長度去切分,假設字典中最長的詞語是4個,以“發展中國家”為例,首先截取前四個“發展中國”判斷,如果與字典中的詞匹配,那麽就是詞項,如果不匹配,那就截取前三個詞“發展中”來判斷,以此類推直至切分出詞項。

4、最小匹配法

同最大匹配法剛好相反。

二、基於理解分詞的方法

為了解決分詞中的歧義問題,搜索引擎完全模擬人理解句子的過程,對句子進行句法分析與語義分析,這個方法需要大量的語言知識和信息,計算過程比較復雜,對搜索引擎的基礎硬件要求比較高。

三、基於統計分詞的方法

隨著時代與互聯網的發展,會產生很多新的詞匯,例如壹些人名、新科技名詞、新事件名(比如XX門、XX帝等),這些詞匯未被詞典收錄,這些詞成為“未登錄詞”,這些詞匯的切分就要依靠統計分詞的方法,搜索引擎通過統計這些字在整個語料庫中出現的頻率,例如在語料庫中發現“S”、“E”、“O”同時出現的次數非常高,那麽搜索引擎就判定”SEO”是壹個詞匯。?