左邊的例子,S1對應3種不同的翻譯,(s1,t1) (s1,t2) (s1, t3 t4),它的熵就比較大。我們把所有對應的翻譯統壹替換為壹個特殊詞『stoken4s1』,以降低詞語翻譯的熵值。右邊呢是我們提出來的三種方法,去改善翻譯結果,包括pre-training, multitask learning, two-pass decoding。大家有興趣的話,可以去看論文。
從實驗結果來看,相比Transformer,在中英翻譯質量上有顯著提高,高熵值詞語的漏譯比例顯著下降。
數據稀疏
第二個挑戰就是數據稀疏。相比於統計機器翻譯,這個問題對神經網絡翻譯而言,更嚴重。實驗表明,神經網絡對於數據量更敏感。
針對數據稀疏問題,我們提出了壹個多任務學習的多語言翻譯模型。在進行多語言翻譯的時候,源語言***享編碼器,在解碼端,不同的語言,使用不同的解碼器。這樣在源語言端就會***享編碼器的信息,從而緩解數據稀疏問題。後來,加拿大蒙特利爾大學、Google等在此方向上陸續開展了多個工作。
實驗表明,我們的方法收斂更快,翻譯質量也明顯提高。更多細節,請閱讀論文。
這篇論文是2018年EMNLP上的best paper,提出了壹個統壹的框架。A)裏面藍色的點和紅色的點分別代表兩種不同的語言句子。如何通過兩種語言的單語數據構建翻譯系統呢?
首先我要做壹個初始化,B)是初始化。首先構建壹個詞典,把這兩種語言之間的詞做壹下對齊。C)是語言模型,基於單語數據,可以訓練語言模型,用來衡量這個語言的流利度。那麽D)是什麽? D)是壹個稱作Back Translation的技術,是目前大家常用的壹個用於增強數據的方法。
用B)初始化後構建的壹個詞典,就可以從壹種語言翻譯為另外壹種語言,哪怕是先基於詞的翻譯。然後,用另外壹種語言的語言模型去對譯文進行衡量。然後把得分高的句子挑出來,再翻譯回去,這壹過程稱作Back Translation,然後再用原來那種語言的語言模型去衡量這個句子好還是不好。這樣壹輪壹輪的叠代,數據就會變得越來越好,系統翻譯質量也會越來越好。
引入知識
第三個挑戰就是引入知識,如何將更多豐富的知識引入翻譯模型是機器翻譯長期面臨的挑戰。這個例子中,中文句子中『橫流』對應到目標語言端是沒有翻譯出來的,用壹個特殊的記號叫UNK(Unknown Word)來標記。
那麽我們做壹個什麽樣的工作呢?我們引入了幾種知識,第壹種就是叫短語表或者叫詞表。如果發現『橫流』這個詞沒有被翻譯出來,我們就去查這個詞典,這個詞典就作為壹個外部知識被引入進來了。同時,那我們還引入了壹個語言模型,語言模型去衡量目標語言的這個句子是不是流暢。同時,我們引入壹個長度獎勵特征去獎勵長句子。因為句子越長,可能漏掉的信息就越少。這個工作首次將統計機器翻譯中的特征引入神經網絡翻譯,可以作為引入知識的壹個框架。
但是目前來說,引入知識還是比較表層的。知識的引入,還需要更多更深入的工作。比如說這個例子, 這個句子是存在歧義的。『中巴』 在沒有給上下文的時候,是無法判斷『巴』是哪個國家的簡稱。
但是下面的句子,有壹個限定,“金磚框架”。這個時候,人們就知道該如何翻譯了。但是,機器能不能知道?大家可以去翻譯引擎上去驗證。因為人是知道中國跟哪些國家是金磚國家,但是機器沒有這個知識。怎麽把這個知識交給機器去做,這是壹個非常挑戰的問題。
還有壹個挑戰,是可解釋性:神經網絡翻譯到底是神還是神經?雖然人們可以設計和調整網絡結構,去優化系統,提高質量。但是對於該方法還缺乏深入的理解。
也有很多工作去試圖研究網絡內部工作機理。清華大學有壹篇文章從註意力的角度去進行研究。
比如左邊的例子,出現了壹個UNK,那個UNK是怎麽產生的,它雖然沒有被翻譯出來,但是出現在正確的位置,占了壹個位置。通過Attention對應關系,可以看到這個UNK對應到『債務國』。右邊例子是壹個重復翻譯的現象。神經網絡機器翻譯除了經常漏翻譯之外,還會經常重復翻譯。比如說出現了兩個“history”。那麽通過這個對應關系我們就可以看到,第6個位置上的“history”是重復出現的,它的出現不僅跟第壹個位置“美國人”和第二個位置“歷史”相關,還跟第5個位置“the”相關。因為產生了壹個定冠詞“the”,模型認為這個地方應該出現壹個“history”,這篇文章對這樣的例子進行了大量的分析,並且給出了壹些分析結果和解決方案。如需進壹步了解,可以看原始論文。還有第五個挑戰 ,是機器翻譯長期以來面臨的挑戰,語篇翻譯。大部分的翻譯系統現在所使用的翻譯方法都是基於句子,以句子作為單位,壹個句子壹個句子的進行翻譯。單看這三個句子翻譯還可以接受。但是連起來看就覺得生硬不連貫。
語篇翻譯
還有第五個挑戰 ,是機器翻譯長期以來面臨的挑戰,語篇翻譯。大部分的翻譯系統現在所使用的翻譯方法都是基於句子,以句子作為單位,壹個句子壹個句子的進行翻譯。單看這三個句子翻譯還可以接受。但是連起來看就覺得生硬不連貫。
我們的方法輸出的結果。可以看到,定冠詞、代詞的加入提升了句子間的連貫性。
我們提出了壹個兩步解碼的方法。在第壹輪解碼中單獨生成每個句子的初步翻譯結果,在第二輪解碼中利用第壹輪翻譯的結果進行翻譯內容潤色,並且提出使用增強式學習模型來獎勵模型產生更流暢的譯文。這是我們系統輸出的壹個結果,整體上,流暢度提高了。
原文鏈接:/q4TY作者 | 吳酈軍、夏應策來源 | 微軟研究院AI頭條(ID:MSRAsia)編者按:目前,目標語言端的無標註單語數據已被廣泛應用於在機器翻譯任務中。然而,目標語言端的無標註數據壹旦使用不當,反而會給模型結果帶來負面影響。為了有效利用大規模源語言端和目標語言端的單語數據,微軟亞洲研究院在 EMNLP 2019 上發表的論文中,提出壹...
繼續訪問
騰訊AI Lab塗兆鵬:如何提升神經網絡翻譯的忠實度 | 附PPT + 視頻
本文為 1 月 4 日,騰訊 AI Lab 高級研究員——塗兆鵬在第 22 期 PhD Talk 中的直播分享實錄。機器翻譯是自然語言處理的經典任務之壹,涉及到自然語言處理的兩個基本問題:語言理解和語言生成。這兩個問題的建模直接對應譯文的兩個評價指標:忠實度(是否表達原文的完整意思)和流利度(譯文是否流暢)。近幾年來,神經網絡機器翻譯取得了巨大進展,成為了主流模型。神經網絡由於能緩解數據稀疏性及捕
繼續訪問
幹貨 | 關於機器翻譯,看這壹篇就夠了
作者簡介俞謙,攜程度假大數據研發部算法工程師,主要負責機器翻譯的研究與應用,目前專註於自然語言處理在垂域下的成熟解決方案。機器翻譯技術的發展壹直與計算機技術、信息論、語言...
繼續訪問
人工神經網絡的算法原理,人工神經網絡算法實例
4.2人工神經網絡的優缺點人工神經網絡由於模擬了大腦神經元的組織方式而具有了人腦功能的壹些基本特征,為人工智能的研究開辟了新的途徑,神經網絡具有的優點在於:(1)並行分布性處理因為人工神經網絡中的神經元排列並不是雜亂無章的,往往是分層或以壹種有規律的序列排列,信號可以同時到達壹批神經元的輸入端,這種結構非常適合並行計算。(3)魯棒性和容錯性由於采用大量的神經元及其相互連接,具有聯想記憶與聯想映射能力,可以增強專家系統的容錯能力,人工神經網絡中少量的神經元發生失效或錯誤,不會對系統整體功能帶來嚴重的影響。..
繼續訪問
神經翻譯筆記5擴展b. 常用的機器翻譯技巧
文章目錄神經翻譯筆記5擴展b. 常用的機器翻譯技巧組合解碼單語數據應用重排序領域適配參考文獻 神經翻譯筆記5擴展b. 常用的機器翻譯技巧 本節介紹提升機器翻譯系統效果的常見手段。這些手段有些實際上是深度學習的通用技巧,有些在神經翻譯出現後不久就被人提出,經過若幹發展沿用至今,有些甚至在統計翻譯時代就已出現。無論如何,這些手段獨立於模型架構存在,都不僅能夠增強模型效果,還展現了頑強的生命力以及良好的通用性 本節參考了Koehn的NMT綜述13.6.1、13.6.3、13.6.7三小節的內容,並根據個人喜好作了
繼續訪問
從冷戰到深度學習,壹文看懂機器翻譯發展史
點擊上方“CSDN”,選擇“置頂公眾號”關鍵時刻,第壹時間送達!CSDN編者友情提示:完成本篇閱讀至少需要消耗壹周能量,請提前收藏~~~圖片來源於網絡通常來講,我打開Google翻譯的次數是Facebook的兩倍,對我來說即時翻譯不再是“賽博朋克”專屬的情節,它已經成為我們現實生活的壹部分。很難想象,經過壹個世紀的努力機器翻譯的算法竟得以實現,期間甚至有壹半的時間我們都覺察不到這項科技的發展。從搜
繼續訪問
機器翻譯的局限
壹、多義性識別上的困難多義性指的是人們交際中所發出的信息在不同的語境下可以表現出多種不同的意義。這是機器翻譯要解決的最基本的,也是最難解決的壹個問題。如,今天是星期六對丈夫說,可能表示提醒孩子對父母說,可能表示這個孩子想放松,想要出去玩。老板對打工者說,可能表示今天上班算加班。從疲勞過度的學生口中說出來,可能表示今天向睡個懶覺。以上所局還可能有更多的例子,但是單單是這些
繼續訪問
神經網絡機器翻譯技術及應用(上)
何中軍,百度機器翻譯技術負責人。本文根據作者2018年12月在全球架構師峰會上的特邀報告整理而成。 本報告分為以下5個部分: 機器翻譯基本原理,介紹機器翻譯原理、主要挑戰、發展歷程,及評價方法 神經網絡機器翻譯,介紹近年來迅速崛起的神經網絡機器翻譯 技術挑戰,盡管神經網絡機器翻譯取得壹系列較大的進展,但是仍然面臨諸多挑戰; 典型應用,機器翻譯在生產、...
繼續訪問
論機器翻譯之淺薄
翻譯 | shawn編輯 | 波波、費棋AI科技大本營導讀盡管機器翻譯明顯玩不轉備受期待的長篇內容,但我們得承認,在快速獲知單詞含義層面,它確實為人們提供了壹定便利。可奇怪的是,無論媒體報道還是行業中都似乎營造了壹種機器翻譯馬上要取代人類譯者的氣氛,這給了人們壹種快要成了的錯覺。有人要揭開盲目樂觀的面紗,因《哥德爾、埃舍爾、巴赫》壹書而獲得普利策獎的美國學者侯世達是其中之壹。他以自己親身體繼續訪問
機器翻譯技術現狀評述與展望 | 行業觀察
今天,妳AI了沒?關註:決策智能與機器學習,每天學點AI幹貨正文***:2497字7圖預計閱讀時間:7分