信息抽取主要包括三個子任務:
關系抽取:我們通常所說的三重抽取主要用於抽取實體之間的關系。
實體提取和鏈引用:即命名實體識別。
事件抽取:相當於壹個多元關系的抽取。
關系抽取是信息抽取的重要組成部分,用於抽取文本中包含的關系。它主要負責從非結構化文本中識別實體,提取實體之間的語義關系,廣泛應用於信息檢索和問答系統。基於關系抽取的基本概念,從不同角度對關系抽取方法進行了分類。最後,分享了基於深度學習的關系抽取方法中常用的數據集,總結了基於深度學習的關系抽取框架。
完整的關系抽取包括兩個子過程:實體抽取和關系分類。實體抽取的子過程是命名實體識別,對句子中的實體進行檢測和分類;關系分類子過程判斷給定句子中兩個實體之間的語義關系,屬於多類別分類問題。
例如,對於句子“青島位於山東省東部”,實體提取子過程檢測到該句子具有兩個實體“青島”和“山東”。關系分類子過程檢測到該句子中的兩個實體“青島”和“山東”具有“位於”而非“出生於”的關系。在關系抽取過程中,大多數方法默認實體信息是給定的,因此關系抽取可以看作是壹個分類問題。
目前,常用的關系抽取方法有五種,分別是基於模式匹配、字典驅動、機器學習、基於本體和混合方法。基於模式匹配和字典驅動的方法依靠人工制定規則,費時費力,可移植性差。基於本體的方法構造復雜,理論不成熟。基於機器學習的方法是基於自然語言處理技術,結合統計語言模型提取關系。該方法相對簡單,性能良好,已成為目前關系抽取的主流方法。下面提到的關系抽取方法都是機器學習方法。
關於信息關系抽取,機器學習的關系抽取方法可以從四個方面進行分類:訓練數據的標註程度,使用的機器學習方法,是否同時進行實體抽取和關系分類子過程,是否限制關系抽取和關系專制的領域。
根據訓練數據的標註程度,關系抽取方法可以分為有監督、半監督和無監督三類。
使用監督學習,處理的基本單元是包含特定實體對的句子,每個句子都有壹個類別標簽。優點:選擇能有效利用樣本的標簽信息,準確率和召回率都比較高。缺點:需要大量人工標註的訓練語料,代價昂貴。
半監督學習,作為訓練數據的基本單位,只有部分句子標註了類別。這種方法使學習者不依賴外部交互,自動使用未標記樣本提高學習性能。
無監督學習,完全不需要對訓練數據進行標註。該方法包括實體對標註、關系聚類和關系詞選擇三個過程。
根據機器學習方法的不同,關系抽取可以分為三類:基於特征向量的方法、基於核函數的方法和基於神經網絡的方法。
基於特征向量的方法,從包含特定實體對的句子中提取語義特征構造特征向量,然後利用支持向量機、最大熵、條件隨機場等模型提取關系。
基於核函數的方法側重於巧妙地設計核函數來計算不同關系實例的具體表示之間的相似度。缺點:但是如何設計核函數需要大量的人工工作,不適合大規模語料的關系抽取任務。
基於神經網絡的方法可以通過構造不同的神經網絡模型來自動學習句子的特征,減少了復雜的特征工程和領域專家知識,具有很強的泛化能力。
根據實體抽取和關系分類是否在同壹個模型中進行,關系抽取方法可以分為管道學習和聯合學習。
管道學習是指對輸入句子進行實體提取,對識別出的實體進行組合,然後進行關系分類。這兩個子流程串聯,完全分離。
聯合學習是指模型中實體抽取和關系分類的子過程。該方法通過使兩個子進程共享網絡的底層參數,並設計特定的標記策略來解決上述問題,其中特定標記策略的使用可以看作是壹個序列標記問題。
根據抽取領域和關系類別是否受限,關系抽取方法可以分為預定義抽取和開放域抽取。
預定義關系提取是指提取壹個或多個固定領域中的實體之間的關系,這些領域中具有單個語料庫結構和預定義的目標關系類型。
開放領域關系抽取不限制領域的範圍和關系的類別。目前,基於深度學習的關系抽取研究主要集中在預定義關系抽取上。
基於深度學習的關系抽取方法常用的數據集有ACE關系抽取任務數據集、SemEval2010任務8數據集、NYT2010數據集等。
ACE關系抽取任務數據集:ACE2005關系抽取數據集包含599篇與新聞和郵件相關的文檔,其數據集包含關系的7大類25小類。
SemEval2010 Task 8數據集:該數據集包含九種類型的關系,即成分-整體、工具-代理、成員-集合、因果、實體-目的、內容-容器、消息-主題、產品-生產者和實體-起源。考慮到實體間關系的方向以及不屬於前面九種關系的“其他”關系,* * *生成了類19的實體關系。其中,訓練數據8000條,測試數據2717條。
NYT2010數據集是Riedel等人獲得的訓練數據,在2010中,Freebase知識庫中的知識三元組與紐約時報的新聞對齊。在這個數據集中,數據的單位是壹個句子包,壹個句子包由幾個包含實體對的句子組成。其中,訓練數據集取自《紐約時報》2005-2006年的語料庫,測試集取自2007年的語料庫。
基於深度學習的關系抽取方法模型構建的關鍵點是利用不同神經網絡的特征來抽取樣本的特征,並用學習樣本的向量來表示。在學習過程中,根據所使用的神經網絡基本結構的不同,基於深度學習的關系抽取方法可以分為四類:基於遞歸神經網絡(REC-NN)的方法、基於卷積神經網絡的方法、基於遞歸神經網絡(RNN)的方法和基於混合網絡模型的方法。
基於遞歸神經網絡的關系抽取方法,首先用自然語言處理工具對句子進行處理,構建特定的二叉樹,然後分析樹上所有相鄰的子節點,按照特定的語義順序組合成壹個父節點,如下圖3所示。這個過程是遞歸的,最後計算出整個句子的向量表示。向量計算的過程可以看作是句子的壹個特征提取過程,這種方法對所有相鄰點使用相同的運算。
因為句子的意義與單詞出現的順序有關,所以關系抽取可以看作是壹個時間序列學習任務,可以使用循環神經網絡進行建模。
基於循環神經網絡的方法在模型設計中使用不同的循環神經網絡獲取句子信息,然後結合每個時刻的隱藏狀態輸出,學習句子級的有效特征。在關系抽取問題中,對於每個輸入,關系標簽壹般只在序列的末尾獲得。張等首次利用雙向遞歸神經網絡提取關系,提出了模型。如下圖7所示,雙向遞歸神經網絡中某壹時刻的輸出不僅取決於序列中的前壹個輸入,還取決於後壹個輸入。
為了更好地提取句子的特征,研究人員使用遞歸神經網絡、卷積神經網絡和循環神經網絡,結合建模和其他機器學習方法來提取關系。
Vu等人提出了基於文本擴展表的ECNN模型和基於鏈接的UniBRNN模型,根據投票機制從每個神經網絡得到的多個結果中得到關系的最終提取結果。
肖等將註意機制引入到壹個多級循環神經網絡中。該方法以壹個文本序列作為輸入,根據標記實體的位置將句子分成五個部分,使用同壹個雙向LSTM網絡對三個子序列進行獨立學習,然後引入詞級註意機制來註意重要的詞表示,分別得到子序列的向量表示。然後,利用雙向RNN網絡進壹步提取子序列和實體的特征,再利用註意機制將其轉換為句子的最終向量表示,並發送給分類器。
Nguyen等人將傳統的基於特征的方法(對數線性模型)、卷積神經網絡方法和循環神經網絡方法與集成和投票機制相結合。
張等人提出在雙向的基礎上疊加註意機制,利用卷積神經網絡層獲得句子表示,然後送入全連通層和softmax層進行分類。
在聯合學習問題上,鄭等人采用遞歸神經網絡和卷積神經網絡相結合的方式進行聯合學習,這也是壹種享受底層網絡參數的方式。
[1]莊傳誌,金小龍,基於深度學習的關系抽取綜述[J]。中國信息學報,2019,33 (12): 1-18。
更多自然語言處理知識,請關註AINLPer微信官方賬號,最好的幹貨馬上送上。