鏈接: https://arxiv.org/pdf/1906.07348
該文呈現了壹個零樣本實體鏈接任務,其中提到的內容必須鏈接到未見的實體,且不需要域內標記的數據。其目標是強健地遷移到高度專業的域,因此不假定元數據或別名表。在這種情況下實體只能通過文本描述來標識,模型必須嚴格依賴於語言理解來解決新實體的問題。首先該文說明了在大的未標記數據上預訓練的強閱讀理解模型可以泛化到未見實體上。其次,該文提出壹種簡單有效的自適應預訓練策略(DAP),用於解決與連接新領域中未見實體相關的域遷移問題。該文在為這項任務構建的新數據集上進行了實驗,並表明DAP相比包括BERT在內的強大預訓練基準方法獲得到了改進。
數據集構建
該研究使用維基文檔構建了壹個新數據集來研究零樣本實體鏈接問題。維基是社區編寫的百科全書,每壹個都專門研究特定的主題。標記的提及可以基於超鏈接自動提取。提及和實體具有豐富的文檔上下文,可以通過閱讀理解方法進行開采。每個維基都有大量與特定主題相關的獨特實體,使其成為評估實體鏈接系統的領域泛化的有用基準。該文使用16個維基數據,其中8個用於訓練,4個用於驗證和測試。為了構建用於訓練和和評估的數據,首先從維基中提取大量的提及。其中許多提及可以通過提及字符串和實體文檔的標題之間的字符串匹配輕松地鏈接起來。這些提及在數據集構建過程中進行下采樣,並且在最終數據集中所占的比例很小(5%)。每個維基文檔對應壹個實體,由文檔的標題和內容表示。這些實體連同它們的文本描述壹起組成實體字典。由於任務已經相當具有挑戰性,該文假設目標實體存在於實體字典中,並將零識別或聚類(無提及或實體指知識庫中不存在的實體)留給未來版本的任務和數據集。按以下規則根據提及之間的令牌重疊和相應的實體標題對提及進行分類。1)高度重疊:標題與提及文本相同 2)多個類別:標題是提及文本,後面是消歧短語。 3)所有其他提及都被分類為低度重疊。
表2顯示了數據集的壹些統計數據。每個域都有大量的實體,從10000到100000不等。該訓練集有49275條標有“被提及”的標簽。為了檢查域內泛化性能,構建了包含5000個提及的保留數據集,每個集合由僅在訓練期間看到或看不到的實體組成。驗證和測試集各有10000個提及(所有這些都是看不見的)。
? 表3顯示了數據集中提及和實體的樣例。在不同的領域之間,提及和實體描述中使用的詞匯表和語言有很大的不同。除了獲取特定領域的知識外,還需要了解實體描述並執行推理以解決提及的問題。
實體鏈接模型
?該文采用了壹個由快速候選生成階段組成的兩階段流水線,其後是壹個代價更高但功能更強大的候選排序階段。
候選生成
如果沒有標準實體鏈接的別名表,壹種自然的替代方法是使用信息檢索方法生成候選。使用TF-IDF的壹個變體BM 25來度量提及字符串和候選文檔之間的相似度。使用帶有Lucene的BM 25評分獲取分數最高的k個實體進行訓練和評估。在實驗中,k被設為64。前64個候選的覆蓋率平均不到77%,表明這項任務很難完成,給候選生成階段留下了很大的改進空間。
候選排序
? ?由於比較兩種文本也就是在上下文中的提及和候選實體描述是壹項類似於閱讀理解和自然語言推理的任務,該文使用了壹種基於深層轉化器(Vaswani等人,2017)的體系結構,該體系結構在這些任務上取得了最先進的性能。
如同在BERT(Devlin等人,2019)中提到的上下文m和候選實體描述e,每個都由128個單詞的令牌表示,並作為序列對與特殊start字符以及分隔標記連接在壹起輸入模型:([CLS]m[SEP]e[SEP])。提及詞由壹個特殊的嵌入向量來表示,該嵌入向量被添加到提及詞嵌入中。轉化編碼器產生輸入對的向量表示 ,這是在特殊池化令牌[CLS]上最後壹個隱藏層的輸出,模型由softmax損失進行訓練。給定候選集中的實體得分為 ,其中w是學習的參數向量,模型使用Softmax損失進行訓練。實驗采用了12層結構,隱藏層維度為768,註意力頭為12個。該文把這個模型稱為全轉化器。通過在與轉化器壹起編碼實體描述和上下文中的提及,它們可以在每壹層互相關註。
? 值得註意的是現有實體鏈接的神經網絡方法還沒有深入研究過這種交叉關註的體系結構。為了評估這種不同於先前工作的價值,該文實現了以下兩種變體:1)池化轉化器:它使用兩個深層轉化器分別得到上下文中提及的單向量表示 ,和候選實體中提及的句子 ; 2)他們分別以上下文中的提及和實體描述作為輸入,用特殊標記指示文本邊界:([CLS]m[SEP])和([CLS]e[SEP]),並在特殊的開始標記處輸出最後的隱藏層編碼。評分函數為 。該結構還使用了兩個轉化編碼器,但引入了壹個額外的註意力模塊,允許他關註上下文中提及的令牌表示。
適應目標
該文關註使用無監督預訓練以確保下遊模型對目標域數據是強健的。預訓練前有兩種壹般策略:(1)任務適應性預訓練 (2)開放語料庫預訓練。該文提出壹種新策略:域自適應預訓練(DAP),它是對現有兩種方法的補充。
引入記號來描述預訓練階段可以組成的各種方法。 表示來自源世界文檔分布的文本段。 表示目標世界文檔分布中的文本段。 表示從 和 隨機插入的文本段。 表示開放語料庫中的文本段,實驗中,這些是維基百科和BERT中使用的BookCorpus數據集。可以把壹系列的預訓練階段串聯在壹起,例如 表示該模型首先在開放語料庫上進行預訓練,然後對合並的源域和目標域進行預訓練,接著僅在目標域上預訓練,最後對源域標記數據進行精調。實驗表明將不同的預訓練策略連接在壹起能提供額外的好處。
? 預訓練 所有的實驗中都使用了基於BERT的模型架構。掩碼LM目標函數(Devlin等人,2019)用於無監督預訓練。所有驗證域的平均歸壹化實體鏈接精度。壹組世界的平均性能是通過宏平均計算的。性能定義為單壹最佳標識實體的準確性。
基準方法? 包括Levenshtein編輯距離和TF-IDF,它們分別將提及字符串與候選實體標題和完整文檔描述進行比較,以對候選實體進行排序。實驗重現了最近為實體鏈接設計的神經模型(Ganea和Hofmann,2017;gupta等人,2017),這些模型表現較差,驗證了使用強閱讀理解模型進行零樣本實體鏈接的必要性。在使用全轉化器模型時,為了達到較好的性能,必須進行預訓練。
泛化到未見實體? 為分析未見實體和零樣本實體鏈接中域轉移的影響,該研究通過對訓練世界中提及的內容進行預測來評估更標準的域內實體鏈接設置的性能。表5比較了不同實體拆分的實體鏈接性能。訓練世界中的可見實體是最容易鏈接到的。對於訓練世界中看不見的實體,可以觀察到性能下降5點。由於語言分布和實體集的變化,可以觀察到性能下降了11點。這壹巨大的泛化差距表明了適應新世界的重要性。
? 域適應預訓練的影響? ?結果見圖2(a)。DAP只對目標域數據進行額外的預訓練,從而改進了所有的預訓練策略。最佳設置 把所有現有的策略聯系在了壹起。為了進壹步分析DAP的結果,圖2(b)畫出了目標未標記數據的掩碼LM精度(MLM精度)與最終目標歸壹化精度之間的關系。在無標記目標數據上增加壹個額外的預訓練階段毫不意外地提高了的精度。有趣的是,MLM精度的提高與實體鏈接精度的提高是壹致的。在無監督目標數據上的性能反映了學習到的表示的質量,並與下遊任務的性能有很好的相關性,這種方法適用於各種預訓練策略。