伯特-論文解讀

BERT:深度雙向變壓器的預訓練

語言理解

○通常有兩種將預訓練語言模型應用於下遊任務的策略:

筆者認為，影響當前職前培養語言模式的瓶頸在於該模式是單向的。比如GPT選擇的是從左到右的架構，使得每個標記只註意到前面的標記，在句子層面對任務有二次影響，但在標記層面對任務影響很大。比如問答任務，從兩個方向結合上下文就很重要。

BERT利用受完形填空任務啟發的掩蔽語言模型(MLM)緩解了以前模型的單向約束問題。MLM隨機屏蔽輸入文本中的壹些標記，然後根據剩余的上下文預測被屏蔽的標記。除了掩碼語言模型之外，作者還提出了下壹個序列預測的任務來共同訓練文本對表示。

本文對BERT的改進如下:

預訓練前的壹般語言表征由來已久。在本節中，我們簡要回顧壹下最廣泛使用的方法。

2.1基於特征的無監督方法:

幾十年來，學習廣泛適用的詞匯表征壹直是壹個活躍的研究領域，包括非神經系統和神經系統方法。預訓練單詞嵌入是現代NLP系統的組成部分，與從零開始的嵌入相比，它提供了顯著的改進(Turian等人，2010)。為了預先訓練單詞嵌入向量，使用了從左到右的語言建模目標(Mnih和Hinton，2009)和在左右上下文中區分正確單詞和錯誤單詞的目標(Mikolov等人，2013)。

這些方法已經擴展到更粗的粒度，例如句子嵌入(Kiros等人，2015；Logeswaran和Lee，2018)或段落嵌入(Le和Mikolov，2014)。為了訓練句子表示，先前的工作已經使用目標來排列候選的下壹個句子(Jernite等人，2017；Logeswaran和Lee，2018)，根據上壹句話的表示，從左到右生成下壹句話的單詞(Kiros等人，2015)，或者是去噪自動編碼器導出的目標(Hill等人，2016)。

ELMo及其前輩(Peters et al .，20172018a)從不同維度總結了傳統的單詞嵌入研究。他們從從左到右和從右到左的語言模型中提取上下文相關的特征。每個標簽的上下文表示是從左到右和從右到左表示的串聯。在將上下文詞嵌入到現有的特定任務架構中時，ELMo推進了幾個主要NLP基準的最新技術(Peters et al .，2018a)，包括問答(Rajpurkar et al .，2016)、情感分析(Socher et al .，2013)和命名實體識別(Tjong Kim-03)。Melamud等人(2016)提出通過壹個任務來學習上下文表征，即使用LSTM從左右上下文中預測單個單詞。與ELMo類似，他們的模型是基於特征的，而不是深度雙向的。Fedus et al. (2018)表明完形填空任務可以用來提高文本生成模型的魯棒性。

2.2無監督微調法:

像基於特征的方法壹樣，第壹種方法僅當單詞嵌入參數在未標記的文本中預訓練時才在這個方向上起作用。最近，生成上下文標記表示的句子或文檔編碼器已經從未標記的文本和文本進行了預訓練，並針對監督的下遊任務進行了微調。

這些方法的優點是需要從頭學習的參數很少。至少部分是因為這個優勢，OpenAI GPT在GLUE benchmark的很多句子級任務中都取得了最新的成績。從左到右語言建模和自動編碼器目標已被用於這種模型的預訓練。

註:伯特整體預訓微調方案。除了輸出層，在預訓練和微調中使用了相同的架構。相同的預訓練模型參數用於初始化不同下遊任務的模型。在微調過程中，所有參數都將被微調。

2.3基於監督數據的遷移學習:

也有研究表明，在大數據集的監督任務中，如自然語言推理、機器翻譯等，可以有效轉化。計算機視覺研究也從大規模的預訓練模型中證明了遷移學習的重要性，有效的方法之壹就是使用ImageNet對預訓練模型進行微調。

本節將介紹BERT及其詳細實現。在我們的框架中有兩個步驟:預訓練和微調。

BERT的壹個顯著特點是跨不同任務的統壹架構。預訓練架構和最終下遊架構之間的差異非常小。

BERT的模型架構是多層雙向變換器編碼器，在實現上BERT與變換器編碼器幾乎相同。

定義:變壓器塊數為l；隱藏尺寸為h；自我關註頭數為a，作者主要展示了兩種BERT模型:

在這項工作中，我們將層數(即變形塊)表示為L，隱藏大小表示為H，自我關註頭數表示為A..我們主要報告兩個模型的結果:

為了比較，選擇BERT-base和OpenAI GPT具有相同的模型大小。但關鍵的壹點是，BERT Transformer使用的是雙向自關註機制，而GPT Transformer使用的是約束自關註機制，其中每個標簽只能關註其左側上下文。

為了使BERT能夠處理大量不同的下遊任務，作者將模型的輸入設計為能夠輸入單個句子或句子對，並將這兩個輸入建模為相同的標記序列。作者用了壹個嵌入了3萬token的有聲單詞。

3.1預訓練BERT:

我們不使用傳統的從左到右或從右到左的語言模型來預訓練BERT。相反，我們使用本節中描述的兩個無人監督的任務來預訓練BERT。該步驟顯示在圖1的左半部分。

任務#1:掩碼LM

標準的語言模型只能實現從左到右或者從右到左的訓練，無法實現真正的雙向訓練，因為雙向的條件是每個單詞都可以直接“看到自己”，模型可以很容易地在多層上下文中預測目標單詞。

為了實現雙向深度預訓練，作者選擇了壹個隨機掩碼來去除壹些標記，然後對這些被屏蔽的標記進行預測。在此設置下，屏蔽標記的隱藏向量表示被輸出到詞匯表的softmax，這與標準語言模型設置相同。作者將這壹過程稱為“掩蔽LM”，也稱為“完形填空”。

○掩蔽LM預訓練任務的缺點:

因為[MASK]標記不會出現在微調階段，這就導致了預訓練和微調階段的不壹致。為了解決這個問題，作者提出了壹個折中方案:

○伯特的面具策略:

任務2:預測下壹句話(NSP)

許多下遊任務是基於對兩個句子之間關系的理解，而語言模型無法直接捕捉這些信息。為了訓練模型理解這種句際關系，作者設計了壹個下壹句預測的二元分類任務。具體來說，選取兩個句子作為訓練樣本，下壹個句子關系的概率為50%，隨機選取的句子對的概率為50%，預測【CLS】的最終隱藏狀態C輸入到sigmoid中。

○培訓前數據:

作者選擇BooksCorpus (800M單詞)和英文Wikipedia(2500m單詞)作為預訓練語料庫，只選取Wikipedia中的文本段落，忽略表格、標題等。為了獲得長的連續文本序列，作者選擇了億字基準等文檔級語料庫，而不是被打亂的句子級語料庫。

3.2微調BERT:

因為transformer中的自關註機制適用於很多下遊任務，所以可以直接對模型進行微調。對於涉及文本對的任務，壹般的做法是對文本對進行獨立編碼，然後應用雙向交叉註意進行交互。Bert利用自我註意機制統壹了這兩個階段，可以直接實現兩個系列句子的交叉編碼。

對於不同的任務，只需要簡單地將特定於任務的輸入輸出插入到Bert中，然後進行end2end的微調即可。

相比前期培訓，微調相對便宜。從相同的預訓練模型開始，本文中的所有結果最多可以在單個雲TPU上復制1小時，或者在GPU上復制幾個小時。

本節將介紹11 NLP任務的BERT調優結果。

4.1膠水:

Glue(通用語言理解評估)是NLP任務的集合。作者將批量大小設置為32；訓練3個紀元；；從驗證集的(5e-5，4e-5，3e-5，2e-5)中選擇最佳學習率。結果如下:

結果見表1。在所有任務中，BERT-base和BERT-large的性能優於所有系統，平均準確率分別比現有技術提高了4.5%和7.0%..請註意，除了屏蔽之外，BERT-base和OpenAI GPT在模型架構上幾乎相同。

對於最大和最廣泛報道的膠合任務MNLI，BERT實現了4.6%的絕對精度改進。在官方的GLUE排名10中，BERT-lagle獲得了80.5分，而在撰寫本文之日，OpenAI GPT獲得了72.8分。我們發現BERT-large在所有任務上都明顯優於BERT-base，尤其是在訓練數據很少的情況下。

4.2小隊v1.1:

斯坦福問答數據集(SQuAD v1.1)收集了65438+萬對眾包問答對。在維基百科中給出壹個問題和壹篇有答案的文章。任務是預測文章中的答案文本。

如圖1所示，在問答任務中，我們將輸入的問題和段落表示為單個壓縮序列，問題由A嵌入，段落由b嵌入，在微調過程中，我們只引入壹個起始向量S和壹個結束向量E..單詞I作為答案範圍開始的概率計算為Ti和s之間的點積，然後是段落中所有單詞的softmax:

在答案範圍的末尾使用類似的公式。候選人從位置I到位置J的得分定義為:S Ti+E Tj，最大得分跨度為j≥ i，用於預測。訓練目標是正確起始位置和結束位置的對數概率之和。我們微調了三個階段，學習率5e-5，批量32。

表2顯示了頂級排行榜條目和頂級發布系統的結果。小隊排行榜前幾名沒有公開* * *系統的最新描述，訓練系統時允許使用任何公開* * *數據。因此，我們在系統中使用適度的數據擴展，先在TriviaQA上進行微調，然後再對團隊進行微調。

我們表現最好的系統在系綜方面優於排名第壹的系統，在系綜方面優於排名第壹的系統+1.5 F1，在單個系統方面優於排名第壹的系統+1。事實上，我們的單BERT模型優於F1中的頂級系綜系統。如果沒有TriviaQA微調數據，我們只會損失0.1-0.4 F1，這仍然遠遠多於現有的所有系統。

其他實驗:省略

在本節中，我們對BERT的許多方面進行了消融實驗，以便更好地了解它們的相對重要性。其他消融研究見附錄c。

5.1預訓練任務的效果:

進行了以下消融試驗:

○結果如下:

5.2模型尺寸的影響:

○結果如下:

作者證明，如果對模型進行充分的預訓練，即使模型規模擴大到很大規模，也能大大改善訓練數據較少的下遊任務。

5.3將Bert應用於基於特征的方法:

○基於特征的方法是在不微調具體任務的情況下，從預訓練模型中提取固定特征。

○這種方法也有壹定的優點:

作者進行了以下實驗:在CoNLL-2003數據集上完成NER任務，不使用CRF輸出，從壹層或多層中提取激活值，輸入到兩層768維BiLSTM中，然後直接分類。結果如下:

結果表明，無論是否微調，Bert模型都是有效的。

我個人認為伯特的意義在於:

由於語言模型的遷移學習，最近的經驗改進表明，豐富且無監督的預訓練是許多語言理解系統的組成部分。特別是，這些結果使得即使是低資源任務也能從深度單向架構中受益。我們的主要貢獻是將這些發現進壹步擴展到深度雙向架構，以便相同的預訓練模型可以成功處理廣泛的NLP任務。