當前位置:成語大全網 - 書法字典 - 什麽是關鍵詞切分技術?

什麽是關鍵詞切分技術?

什麽是分詞?中文分詞和其他分詞有什麽區別?分詞是將連續的詞序列按照壹定的規範重新組合成詞序列的過程。在上面的例子中,我們可以看到在英語寫作中,空格被用作單詞之間的自然分隔符,而在漢語中,只有單詞、句子和段落可以通過明顯的分隔符進行簡單的定界,但單詞沒有正式的分隔符。雖然英語也有劃分短語的問題,但從上面的例子中我們也可以看出,漢語比英語復雜和困難得多。

目前,有三種主流的中文分詞算法:

1,基於字符串匹配的分詞方法

這種方法也稱為機械分詞,根據某種策略將要分析的中文字符串與“足夠大”的機器詞典中的條目進行匹配。如果在字典中找到某個字符串,則匹配成功(單詞被識別)。根據掃描方向的不同,字符串匹配分詞方法可以分為正向匹配和反向匹配;根據不同長度的優先級匹配,可分為最大(最長)匹配和最小(最短)匹配;根據是否與詞性標註過程相結合,可以分為簡單分詞方法和分詞標註壹體化方法。幾種常用的機械分詞方法如下:

1)正最大匹配法(方向從左到右);

2)逆最大匹配法(從右到左);

3)最小切分(盡量減少每句話中切掉的字數)。

上述方法還可以相互結合,例如,可以將正向最大匹配方法和反向最大匹配方法結合起來形成雙向匹配方法。由於中文詞匯的特點,正向最小匹配和反向最小匹配很少使用。壹般來說,反向匹配的分割精度略高於正向匹配,遇到的歧義現象較少。統計結果表明,僅使用正向最大匹配的錯誤率為1/169,僅使用反向最大匹配的錯誤率為1/245。但這種精度遠遠不能滿足實際需求。在實際的分詞系統中,使用機械分詞作為初始分詞的方法,還需要利用各種其他語言信息來進壹步提高分詞的準確性。

壹種方法是改進掃描方法,稱為特征掃描或標記分割。首先在要分析的字符串中識別和分割壹些具有明顯特征的單詞。使用這些單詞作為斷點,可以將原始字符串分成更小的字符串,然後進行機械分段,從而降低匹配錯誤率。另壹種方法是將分詞與詞性標註相結合,利用豐富的詞性信息幫助分詞決策,並在標註過程中反過來檢查和調整分詞結果,從而大大提高分詞的準確性。

2.基於理解的分詞方法。

這種分詞方法是讓計算機模擬人對句子的理解,達到識別單詞的效果。其基本思想是在分詞的同時進行句法和語義分析,利用句法和語義信息處理歧義。它通常包括三個部分:分詞子系統、句法語義子系統和通用控制部分。在總控部分的協調下,分詞子系統可以獲取有關單詞和句子的句法和語義信息來判斷分詞的歧義性,即它模擬了人們對句子的理解過程。這種分詞方法需要用到大量的語言知識和信息。由於漢語語言知識的概括性和復雜性,很難將各種語言信息組織成機器可以直接閱讀的形式,因此目前基於理解的分詞系統仍處於實驗階段。

3.基於統計的分詞方法。

從形式上看,壹個單詞是多個單詞的穩定組合,因此在上下文中,相鄰單詞同時出現的次數越多,組成壹個單詞的可能性就越大。因此,詞與詞相鄰的頻率或概率更能反映構詞法的可信度。我們可以統計語料庫中相鄰單詞組合的頻率,並計算它們的共現信息。定義兩個漢字的共現信息,並計算兩個漢字X和y的相鄰* * *出現概率。共現信息反映了漢字之間組合的緊密程度。當緊密度高於某個閾值時,可以認為該詞群可能構成壹個詞。這種方法只需要統計詞組在語料庫中出現的頻率而無需劃分詞典,因此也被稱為無詞典分詞或統計詞檢索方法。但該方法也存在壹定的局限性,如“這個”、“壹個”、“妳”、“我的”、“很多”等,往往提取出壹些高頻的常用詞而不是單詞,並且常用詞的識別準確率較差,時空開銷較大。實用的統計分詞系統都使用壹個基本分詞詞典(常用詞詞典)進行字符串匹配分詞,同時使用統計方法識別壹些新詞,即將字符串頻率統計與字符串匹配相結合,既充分發揮了快速高效匹配分詞的特點,又利用無詞典分詞結合上下文識別新詞並自動消除歧義。

分詞時應註意以下幾點:

1.分詞算法的時間性能相對較高。尤其是當前的網頁搜索對實時性要求很高。因此,作為中文信息處理的基礎,分詞首先必須占用盡可能少的時間。

2.分詞精度的提高並不壹定帶來檢索性能的提高。分詞達到壹定精度後,對中文信息檢索的影響將不再明顯,雖然仍有壹定影響,但這不是CIR的性能瓶頸。因此,壹味追求高準確率的片面分詞算法不太適合大規模中文信息檢索。在時間和準確性之間存在矛盾的情況下,我們需要在它們之間找到壹個合適的平衡點。

3.切分的粒度仍然可以遵循長詞優先準則,但需要與查詢擴展級別的後續處理相關聯。在信息檢索中,分詞算法只需關註如何消除交叉歧義。對於覆蓋的歧義性,我們可以使用字典的二次索引和查詢擴展來解決。

4.未登錄詞識別的準確性比召回率更重要。我們在識別未登錄詞時應盡量確保沒有錯誤的組合,以免切分錯誤的未登錄詞。如果單詞被錯誤地組合成未註冊的單詞,則可能無法正確檢索相應的文檔。

百度分詞

首先,根據分段符號分離查詢。分詞後的“信息檢索理論工具”。

然後查看是否有重復的字符串,如果有,則丟棄多余的字符串,只保留壹個。“理論工具論”分詞後谷歌不考慮這個算。

然後判斷是否有英文或數字,如果有,則整體保留英文或數字,並剪切前後的中文。經過查詢“電影BT下載”的分詞。

如果字符串只包含少於或等於3個漢字,它將保持不變。當字符串長度超過4個漢字時,百度的分詞程序將開始肢解字符串。

分詞算法的類型有正向最大匹配、反向最大匹配、雙向最大匹配、語言模型法和最短路徑算法。判斷壹個分詞系統好不好的關鍵取決於兩點,壹是消除歧義的能力;壹個是識別字典中的未知單詞,如人名、地名和機構名。

百度分詞至少采用兩種詞典,壹種是通用詞典,壹種是專用詞典(人名、地名、生詞等。).而且專用詞典先分詞,剩下的詞再由普通詞典分。

百度使用雙向最大匹配算法進行分詞。