當前位置:成語大全網 - 漢語詞典 - 字典增強的實體抽取

字典增強的實體抽取

命名實體識別,NER)是自然語言處理的壹項基本任務。它的目的是識別命名實體,例如語料庫中的人名、地名和組織名。由於這些命名實體的數量越來越多,通常不可能在詞典中窮盡列舉,它們的形成方法也有自己的規律。因此,對這些詞的識別通常是獨立於詞法形態處理(如漢語分詞)的任務來處理的,稱為命名實體識別。命名實體識別技術是許多自然語言處理技術的重要組成部分,如信息抽取、信息檢索、機器翻譯、問答系統等。

命名實體是命名實體識別的研究對象,壹般包括三大類(實體類、時間類、數字類)和七個子類(人名、地名、機構名、時間、日期、貨幣、百分比)。判斷命名實體是否被正確識別包括兩個方面:實體的邊界是否正確;是否正確標記了實體的類型。主要的錯誤類型包括正確的文本和可能的錯誤類型;另壹方面,文本邊界是錯誤的,它包含的主要實體詞和詞性標記可能是正確的。

命名實體識別的主要技術方法分為:基於規則和字典的方法,基於統計的方法,以及兩者混合的方法。

1.基於規則和字典的方法

基於規則的方法多采用語言學家手工構建規則模板,選擇特征包括統計信息、標點符號、關鍵詞、指示詞和趨向詞、方位詞(如後綴)、中心詞等。,而模式和字符串的匹配是主要手段。這些系統大多依賴於知識庫和字典的建立。基於規則和字典的方法是最早用於命名實體識別的方法。壹般來說,當提取的規則能夠準確反映語言現象時,基於規則的方法的性能要優於統計方法。但是這些規則往往依賴於具體的語言、領域和文本風格,而且編譯過程耗時且難以覆蓋所有的語言現象,尤其容易出現錯誤,系統可移植性也不好,因此語言學家需要針對不同的系統重新編寫規則。基於規則的方法的另壹個缺點是成本太高,並且存在系統構建周期長、可移植性差以及需要建立不同領域知識庫作為輔助來提高系統識別能力等問題。

2.基於統計的方法

基於統計機器學習

這些方法主要包括:隱馬爾可夫模型、最大熵、支持向量機、SVM、條件隨機場等。

在四種學習方法中,大熵模型結構緊湊,通用性好。主要缺點是培訓時間非常復雜,有時培訓費用難以承受。此外,它需要清晰的歸壹化計算,這導致了很大的開銷。條件隨機場為命名實體識別提供了靈活且全局最優的標註框架,但也存在收斂速度慢、訓練時間長的問題。壹般來說,較大的熵和支持向量機比隱馬爾可夫模型有更高的準確率,但隱馬爾可夫模型在訓練和識別上更快,主要是因為使用了維特比算法。

求解命名實體類別序列是有效的。隱馬爾可夫模型更適合壹些要求實時性,需要處理大量文本的應用,比如短文本命名實體識別。

基於統計的方法對特征選擇的要求很高,需要從文本中選擇對這個任務有影響的各種特征,並將這些特征加入到特征向量中。根據具體命名實體的主要難點和特征,考慮能夠有效反映這類實體特征的特征集。主要方法是通過統計和分析訓練語料中包含的語言信息,從訓練語料中挖掘特征。相關特征可分為特定詞特征、上下文特征、詞典和詞性特征、停用詞特征、核心詞特征和語義特征。

基於統計的方法也嚴重依賴語料庫,能夠用於構建和評估命名實體識別系統的大規模通用語料庫很少。

3.混合方法

自然語言處理不完全是隨機過程,單獨使用基於統計的方法,狀態搜索空間非常巨大,需要借助規則知識提前進行篩選和剪枝。目前,幾乎沒有僅使用統計模型而沒有規則知識的命名實體識別系統,並且在許多情況下,它們使用混合方法:

3.1統計學習方法內部級聯或集成。

3.2規則、字典、機器學習方法之間融合的核心是融合方法技術。

在基於統計的學習方法中引入壹些規則,將機器學習和人工知識結合起來。

3.3綜合各種模型和算法,把上壹級模型的結果作為下壹級的訓練數據,用這些訓練數據訓練模型,得到下壹級模型。

這種方法需要考慮如何將兩種方法高效地結合起來,在具體實現過程中采用什麽樣的融合技術。由於命名實體的識別在很大程度上依賴於分類技術,分類中可以使用的融合技術主要有投票、x投票、分級VA、L分級等。

原文:/thread-737880-1-1 . html