命名實體識別(Named EntitiesRecognition, NER)是自然語言處理(Natural LanguageProcessing, NLP)的壹個基礎任務。其目的是識別語料中人名、地名、組織機構名等命名實體。由於這些命名實體數量不斷增加,通常不可能在詞典中窮盡列出,且其構成方法具有各自的壹些規律性,因而,通常把對這些詞的識別從詞匯形態處理(如漢語切分)任務中獨立處理,稱為命名實體識別。命名實體識別技術是信息抽取、信息檢索、機器翻譯、問答系統等多種自然語言處理技術必不可少的組成部分。
命名實體是命名實體識別的研究主體,壹般包括3大類(實體類、時間類和數字類)和7小類(人名、地名、機構名、時間、日期、貨幣和百分比)命名實體。評判壹個命名實體是否被正確識別包括兩個方面:實體的邊界是否正確;實體的類型是否標註正確。主要錯誤類型包括文本正確,類型可能錯誤;反之,文本邊界錯誤,而其包含的主要實體詞和詞類標記可能正確。
命名實體識別的主要技術方法分為:基於規則和詞典的方法、基於統計的方法、二者混合的方法等。
1.基於規則和詞典的方法
基於規則的方法多采用語言學專家手工構造規則模板,選用特征包括統計信息、標點符號、關鍵字、指示詞和方向詞、位置詞(如尾字)、中心詞等方法,以模式和字符串相匹配為主要手段,這類系統大多依賴於知識庫和詞典的建立。基於規則和詞典的方法是命名實體識別中最早使用的方法,壹般而言,當提取的規則能比較較精確地反映語言現象時,基於規則的方法性能要優於基於統計的方法。但是這些規則往往依賴於具體語言、領域和文本風格,編制過程耗時且難以涵蓋所有的語言現象,特別容易產生錯誤,系統可移植性不好,對於不同的系統需要語言學專家重新書寫規則。基於規則的方法的另外壹個缺點是代價太大,存在系統建設周期長、移植性差而且需要建立不同領域知識庫作為輔助以提高系統識別能力等問題。
2.基於統計的方法
基於統計 機器學習
的方法主要包括:隱馬爾可夫模型(HiddenMarkovMode,HMM)、較大熵(MaxmiumEntropy,ME)、支持向量機(Support VectorMachine,SVM)、條件隨機場( ConditionalRandom Fields,CRF)等。
在這4種學習方法中,較大熵模型結構緊湊,具有較好的通用性,主要缺點是訓練時間復雜性非常高,有時甚至導致訓練代價難以承受,另外由於需要明確的歸壹化計算,導致開銷比較大。而條件隨機場為命名實體識別提供了壹個特征靈活、全局最優的標註框架,但同時存在收斂速度慢、訓練時間長的問題。壹般說來,較大熵和支持向量機在正確率上要比隱馬爾可夫模型高壹些,但是隱馬爾可夫模型在訓練和識別時的速度要快壹些,主要是由於在利用Viterbi 算法
求解命名實體類別序列的效率較高。隱馬爾可夫模型更適用於壹些對實時性有要求以及像信息檢索這樣需要處理大量文本的應用,如短文本命名實體識別。
基於統計的方法對特征選取的要求較高,需要從文本中選擇對該項任務有影響的各種特征,並將這些特征加入到特征向量中。依據特定命名實體識別所面臨的主要困難和所表現出的特性,考慮選擇能有效反映該類實體特性的特征集合。主要做法是通過對訓練語料所包含的語言信息進行統計和分析,從訓練語料中挖掘出特征。有關特征可以分為具體的單詞特征、上下文特征、詞典及詞性特征、停用詞特征、核心詞特征以及語義特征等。
基於統計的方法對語料庫的依賴也比較大,而可以用來建設和評估命名實體識別系統的大規模通用語料庫又比較少。
3.混合方法
自然語言處理並不完全是壹個隨機過程,單獨使用基於統計的方法使狀態搜索空間非常龐大,必須借助規則知識提前進行過濾修剪處理。目前幾乎沒有單純使用統計模型而不使用規則知識的命名實體識別系統,在很多情況下是使用混合方法:
3.1 統計學習方法之間或內部層疊融合。
3.2 規則、詞典和機器學習方法之間的融合,其核心是融合方法技術。
在基於統計的學習方法中引入部分規則,將機器學習和人工知識結合起來。
3.3 將各類模型、算法結合起來,將前壹級模型的結果作為下壹級的訓練數據,並用這些訓練數據對模型進行訓練,得到下壹級模型。
這種方法在具體實現過程中需要考慮怎樣高效地將兩種方法結合起來,采用什麽樣的融合技術。由於命名實體識別在很大程度上依賴於分類技術,在分類方面可以采用的融合技術主要包括如Voting, XVoting,GradingVa,l Grading等。
原文: /thread-737880-1-1.html