當前位置:成語大全網 - 英語詞典 - 關鍵字分詞技術是怎麽回事呢

關鍵字分詞技術是怎麽回事呢

何為分詞?中文分詞與其他的分詞又有什麽不同呢?分詞就是將連續的字序列按照壹定的規範重新組合成詞序列的過程。在上面的例子中我們就可以看出,在英文的行文中,單詞之間是以空格作為自然分界符的,而中文只是字、句和段可以通過明顯的分界符來簡單劃界,唯獨詞沒有壹個形式上的分界符,雖然英文也同樣存在短語的劃分問題,但是在詞這壹層上,上面的例子中我們也可以看出,中文比之英文要復雜的多、困難的多。

目前主流的中文分詞算法有以下3種:

1、 基於字符串匹配的分詞方法

這種方法又叫做機械分詞方法,它是按照壹定的策略將待分析的漢字串與壹個“充分大的”機器詞典中的詞條進行配,若在詞典中找到某個字符串,則匹 配成功(識別出壹個詞)。按照掃描方向的不同,串匹配分詞方法可以分為正向匹配和逆向匹配;按照不同長度優先匹配的情況,可以分為最大(最長)匹配和最小(最短)匹配;按照是否與詞性標註過程相結合,又可以分為單純分詞方法和分詞與標註相結合的壹體化方法。常用的幾種機械分詞方法如下:

1)正向最大匹配法(由左到右的方向);

2)逆向最大匹配法(由右到左的方向);

3)最少切分(使每壹句中切出的詞數最小)。

還可以將上述各種方法相互組合,例如,可以將正向最大匹配方法和逆向最大匹配方法結合起來構成雙向匹配法。由於漢語單字成詞的特點,正向最小匹配和逆向最小匹配壹般很少使用。壹般說來,逆向匹配的切分精度略高於正向匹配,遇到的歧義現象也較少。統計結果表明,單純使用正向最大匹配的錯誤率為 1/169,單純使用逆向最大匹配的錯誤率為1/245。但這種精度還遠遠不能滿足實際的需要。實際使用的分詞系統,都是把機械分詞作為壹種初分手段,還 需通過利用各種其它的語言信息來進壹步提高切分的準確率。

壹種方法是改進掃描方式,稱為特征掃描或標誌切分,優先在待分析字符串中識別和切分出壹些帶有明顯特征的詞,以這些詞作為斷點,可將原字符串分 為較小的串再來進機械分詞,從而減少匹配的錯誤率。另壹種方法是將分詞和詞類標註結合起來,利用豐富的詞類信息對分詞決策提供幫助,並且在標註過程中又反 過來對分詞結果進行檢驗、調整,從而極大地提高切分的準確率。

2、 基於理解的分詞方法

這種分詞方法是通過讓計算機模擬人對句子的理解,達到識別詞的效果。其基本思想就是在分詞的同時進行句法、語義分析,利用句法信息和語義信息來處理歧義現象。它通常包括三個部分:分詞子系統、句法語義子系統、總控部分。在總控部分的協調下,分詞子系統可以獲得有關詞、句子等的句法和語義信息來對分詞歧義進行判斷,即它模擬了人對句子的理解過程。這種分詞方法需要使用大量的語言知識和信息。由於漢語語言知識的籠統、復雜性,難以將各種語言信息組織 成機器可直接讀取的形式,因此目前基於理解的分詞系統還處在試驗階段。

3、 基於統計的分詞方法

從形式上看,詞是穩定的字的組合,因此在上下文中,相鄰的字同時出現的次數越多,就越有可能構成壹個詞。因此字與字相鄰***現的頻率或概率能夠較好的反映成詞的可信度。可以對語料中相鄰***現的各個字的組合的頻度進行統計,計算它們的互現信息。定義兩個字的互現信息,計算兩個漢字X、Y的相鄰***現概率。互現信息體現了漢字之間結合關系的緊密程度。當緊密程度高於某壹個閾值時,便可認為此字組可能構成了壹個詞。這種方法只需對語料中的字組頻度進行統 計,不需要切分詞典,因而又叫做無詞典分詞法或統計取詞方法。但這種方法也有壹定的局限性,會經常抽出壹些***現頻度高、但並不是詞的常用字組,例如“這 壹”、“之壹”、“有的”、“我的”、“許多的”等,並且對常用詞的識別精度差,時空開銷大。實際應用的統計分詞系統都要使用壹部基本的分詞詞典(常用詞詞典)進行串匹配分詞,同時使用統計方法識別壹些新的詞,即將串頻統計和串匹配結合起來,既發揮匹配分詞切分速度快、效率高的特點,又利用了無詞典分詞結合上下文識別生詞、自動消除歧義的優點。

分詞幾點要註意:

1.分詞算法的時間性能要比較高。尤其是現在的web搜索,實時性要求很高。所以作為中文信息處理基礎的分詞首先必須占用盡可能少的時間。

2.分詞正確率的提高並不壹定帶來檢索性能的提高。分詞到達壹定精度之後,對中文信息檢索的影響不再會很明顯,雖然仍然還是有壹些影響,但是這已經不是CIR的性能瓶頸。所以片面的壹味追求高準確率的分詞算法並不是很適合大規模中文信息檢索。在時間和精度之間存在矛盾無法兼顧的情況下,我們需要在二者之間找到壹個合適的平衡點。

3.切分的顆粒度仍然可以依照長詞優先準則,但是需要在查詢擴展層面進行相關後續處理。在信息檢索中,分詞算法只需要集中精力考慮如何消除交叉歧義。對於覆蓋歧義,我們可以利用詞典的二次索引和查詢擴展來解決。

4.未登錄詞識別的準確率要比召回率更加重要。要盡量保證未登錄詞識別時不進行錯誤結合,避免因此切分出錯誤的未登錄詞。如果將單字錯誤的結合成未登錄詞了,則有可能導致無法正確檢索到相應的文檔。

百度的分詞

首先根據分割符號將查詢分開。“信息檢索 理論 工具” 分詞後 <信息檢索,理論,工具>。

然後看看是否有重復的字符串,如果有,就拋棄多余的,只保留壹個。“理論 工具理論”分詞後<工具理論>,GOOGLE不考慮這個並歸計算。

接著判斷是否有英文或者數字,如果有的話,把英文或者數字當作壹個整體保留並把前後的中文切開。查詢”電影BT下載”分詞後<電影,BT,下載>。

如果字符串只包含小於等於3個中文字符的話,那就保留不動,當字符串長度大於4個中文字符的時候,百度的分詞程序才出馬大幹快上,把這個字符串肢解掉。

分詞算法類型正向最大匹配,反向最大匹配,雙向最大匹配,語言模型方法,最短路徑算法判斷壹個分詞系統好不好,關鍵看兩點,壹個是消除歧義能力;壹個是詞典未登錄詞的識別比如人名,地名,機構名等。

百度分詞采取了至少兩個詞典,壹個是普通詞典,壹個是專用詞典(人名、地名、新詞等)。而且是專用詞典先切分,然後將剩余的片斷交由普通詞典來切分。

百度用分詞算法類型采用的是雙向最大匹配算法。