繼伯特之後,OpenAI的GPT-2就是其中之壹。它在文本生成方面有著驚人的表現,其生成的文本在語境連貫性和情感表達方面都超出了人們對當前語言模型的預期。就模型架構而言,GPT-2沒有特別新穎的架構,類似於《變形金剛》的解碼器。與GPT-1相比,GPT -2使用了更可預測、更大和更深的模型。
從變形金剛的解碼器中移除了解碼器對編碼器的關註。即消除seq2seq的過程被消除。
GPT是壹個語言模型,每個時刻只能看到當前時刻之前的信息,這是壹個自回歸的過程。
GPT2和隱藏狀態的大小變化,按樓層數有小、中、大、特大之分。
GPT的訓練過程是交叉預測下壹個單詞,測試是輸入壹個句子生成另壹個句子。
GPT的前期訓練就是訓練壹個語言模型。bert的預訓練是掩蔽語言模型和nsp的任務。
GPT由幾個解碼器模塊組成,每個解碼器模塊由掩蔽自註意和前饋神經網絡組成。
壹個時間戳的隱藏狀態通過線性層轉化為壹個大小為vocab大小的嵌入,然後通過softmax計算每個詞的概率,找到概率最高的詞作為預測輸出,然後將下壹時刻的詞作為真實輸出,計算兩者的交叉熵來訓練模型。
每個時間戳後面位置被屏蔽,並設置負的組大小值。做softmax的時候,這個位置的值是0。
2)總結
變壓器解碼器的構造
在前期培訓中做語言模型訓練。
GPT2使用更多更深的塊。
伯特是NLU,但代不了。
Gpt是壹種自然語言模型,非常適合生成的任務。在伯特能做到的,在GPT也能做到。
除了GPT-2,GPT-3繼續其單向語言模型訓練模式,但模型規模增加到6543.8億+0.75億,使用45TB數據進行訓練。