在2010中,托馬斯·米科洛夫改進了本吉奧的前饋神經網絡語言模型(NNLM),並提出了壹種基於RNN(RNN·LM)的語言模型,將其用於語音識別任務,大大提高了識別精度。在此基礎上,托馬斯·米科洛夫在2013中提出了著名的word2vec。與NNLM和RNNLM不同,word2vec的目標不再是關註語言模型的建模,而是通過使用語言模型來學習每個單詞的分布式表示。分布式表示的概念源於Hinton 1986。Word2vec引發了自然語言處理領域的深度學習浪潮,此外,它還啟發了知識表示和網絡表示等新領域。
另壹方面,在2014年,本吉奧團隊和谷歌幾乎同時提出了seq2seq架構,使用RNN進行機器翻譯。不久後,Bengio團隊提出了改進seq2seq架構的註意力機制。從那時起,機器翻譯進入了神經機器翻譯(NMT)時代,它不僅過程簡單,而且遠比統計機器翻譯有效。目前,幾乎所有主流的機器翻譯系統都采用了神經機器翻譯技術。此外,註意力機制也廣泛應用於基於深度學習的各種任務中。
近兩年來,相關領域仍有壹些突破。2017 Facebook人工智能實驗室提出了基於卷積神經網絡的seq2seq架構,用帶門控單元的cnn代替rnn,在提高效果的同時大大加快了模型訓練速度。此後不久,谷歌提出了transformer架構,用自我關註取代了原來的RNN和CNN,進壹步降低了模型的復雜性。在單詞表示學習方面,艾倫人工智能研究所在2018中提出了壹種上下文敏感的表示學習方法ELMo,該方法使用雙向LSTM語言模型來學習不同上下文中單詞的不同向量表示,並在六個nlp任務中取得了改進。在此基礎上,OpenAI團隊提出了預訓練模型GPT,並用transformer代替LSTM來訓練語言模型。當應用於具體任務時,GPT直接將預訓練語言模型的最後壹層與softmax相連作為任務輸出層,然後對模型進行微調,在許多任務中取得了較好的效果。不久後,谷歌提出了BERT模型,將GPT的單向語言模型擴展為掩蔽語言模型,並將句子預測任務引入預訓練。BERT模型在11個任務中取得了最好的成績,是深度學習在nlp領域的又壹裏程碑。