機器翻譯(Machine Translation,MT)是建立在多學科基礎上的綜合學科,現代理論語言學的發展,計算機科學的進步,信息學和概率統計學的應用,對機器翻譯的發展和演變產生了重要影響。機器翻譯的基本思想是利用計算機對自然語言進行翻譯,而各種機器翻譯系統采用的技術和理念不盡相同;面對各種各樣的機器翻譯系統,文獻上有各種分類方式。本文根據所應用的基本工作原理對機器翻譯系統分類作壹綜述。
1. 基本類型的機器翻譯系統:現有的機器翻譯系統按照其基本工作原理,可以分為基於規則的(Rule-Based)機器翻譯,基於實例的(Example-Based)機器翻譯和統計型的(Statistical)機器翻譯這三種基本類型。
1.1. 基於規則的機器翻譯系統(Rule-Based Machine Translation, RBMT):其基本工作原理基於壹個假設,即語言無限的句子可以由有限的規則推導出來。基於這個假設的機器翻譯方法又可以分為三類:直接翻譯法(Direct Translation),中間語言法(Interlingual Approach),和轉換法(Transfer Approach)。它們都需要用到大規模的雙語詞典,需要用到源語言推導規則,語言轉換規則和目標語言生成規則;其不同點在於對語言進行的分析深度不同。如直譯法幾乎不需要進行語言分析,中間語言法和轉換法需要對源語言和目標語言進行某種程度的語言分析。
1.1.1直接翻譯法(Direct Translation):這種翻譯方法直接對源文字中的字詞進行逐個翻譯,譯後文字順序按照原文順序進行排列。這是基於規則的機器翻譯的最早的工作方法。這種譯法簡單、直觀,其弊端也是明顯的:由這種方法得到的翻譯結果質量很不令人滿意。人們已經逐漸不再使用這種直接翻譯法。
1.1.2中間語言法(Interlingual Approach):這種翻譯方法對源語言文字進行透徹的語言分析,將其轉化為壹種中間語言表達形式,進而由這種中間語言(Interlingua)進壹步生成和輸出符合目標語言語法規則的文字。這種中間語言是壹種非自然語言,即不是任何國家地區人們使用的語言;而且它是壹種沒有歧義的表達方式。此外,中間語言不是唯壹的,不同的系統采用不同的中間語言。任意壹種語言經由中間語言譯為其它任意壹種語言,理論上這種中間語言法是最有效率的壹種翻譯方式。假定世界上總***有n種自然語言,使用中間語言法,只需2n個模塊就可以解決所有自然語言之間的互譯問題。不使用中間語言,這些語言間的互譯則需要n(n-1)個模塊。當n大於3時,2n小於n(n-1)。我們知道,世界上的自然語言種類遠大於3,因此2n個模塊的數量遠小於n(n-1)個模塊的數量。
1.1.3 轉換法(Transfer Approach):這種翻譯方法先對源語言文字進行壹定程度的語言分析,去除語法的因素,生成源語言的中間表達方式,然後經由轉換,生成目標語言的中間表達方式,再由目標語言的中間表達方式生成和輸出符合目標語言語法規則的文字。目前來說,轉換法的語言分析和實現方法在三種方法中最為復雜,得到的翻譯質量在三種方法中也是最好的,是目前商業上最常使用的翻譯方法,在商業上最為成功。
在許多基於規則的機器翻譯系統中,由語言學家輔助編寫壹系列關於源語言和目標語言的語法規則,以及將源語言數據轉換為目標語言數據的轉換規則。然而使用全人工來制作這些規則非常昂貴、費時,而且易於出錯。壹個解決方法便是將以往的歷史翻譯結果作為資源庫,其中的源語言文字和它對應的目標語言譯文作為例子,從中嘗試提取出恰當的規則。方法之壹是對源文字和目標語言譯文作人工標記以示關聯。Sato言和Nagao[1]研發出壹個系統,用“平面依賴關系樹”來表示源語言文字和目標語言文字。這種關系樹型數據結構是計算機高效識別的壹種形式。通常用兩個層次代表源語言和目標語言之間的關聯:第壹層次依賴於文字的表面形式(如字、詞順序),用於源語言的分析和目標語言的生成;第二層次依賴於字詞間的語義關聯,用於從源語言向目標語言的轉換。這種機器翻譯系統在基於規則的機器翻譯基礎上,利用了實例庫的優勢。
隨著大量歷史翻譯結果的積累,出現了基於實例的機器翻譯系統,人們將這些已經完成的翻譯結果作為資源庫,利用到機器翻譯中來。
1.2. 基於實例的機器翻譯(Example-Based Machine Translation,EBMT):其基本工作原理是基於類比(Analogy)的原則,從實例庫中匹配出與源文字片段最相似的文字片段,取出實例文字片段對應的目標語言翻譯結果,進行適當的改造,最終得出完整的翻譯結果。基於實例的機器翻譯其核心思想最早由MakonNagao 提出,他提出:人們在翻譯簡單句子時並不作深層語言分析,而是翻譯。首先把源句子分解成若幹片段,然後將這些片段譯為目標語言,每個片段的翻譯都是通過與例句做匹配以類比的原則得到的,最後將這些譯後句子組合成壹個長句子。
1.2.1. 實例庫的構成:實例庫也稱為語料庫(Corpus),由已經完成的翻譯結果構成。這些現成的翻譯結果也稱為語料,包括人工翻譯的結果和經過人工編輯的機器翻譯結果。語料庫由雙語對構成,包括源語言文字片段和目標語言譯文文字片段兩部分。這些翻譯結果要先經過拆分和對齊處理,才可以成為語料庫中的可用語料。因此語料庫也稱為平行雙語語料庫(Parallel的 Corpus)。拆分和對齊目前有多種形式,如句子水平的對齊和短語水平的對齊。對齊的文字片段大小的選擇,會直接影響匹配的效率和翻譯結果。
1.2.2. 語料拆分的碎片化問題:Nirenburg等(1993)指出,在基於實例的機器翻譯系統(EBMT) 中,實例語料存在壹個文字片段長度和相似度之間的壹個矛盾。文字片段越長,越不易得到壹個相似度高的匹配;文字片段越短,越可能得到壹個大致匹配,但是得到低質量翻譯結果的風險也越大。比如由段落劃分邊界產生的重疊問題以及不恰當的劃分導致的翻譯質量下降。直觀上似乎是選擇以句子為單位劃分得到的語料對比較好,有諸多優勢如:句子的邊界劃分清楚,壹些簡單句子的結構清晰。然而在實際應用中,以句子為單位並不是最恰當的方式。實踐證明匹配和重組過程需要使用更加短小的片段。(當然,這些研究結果是以歐美語系語言之間的翻譯研究結果為基礎的。)
1.2.3. 實例庫定制:實例語料的的範圍和質量影響著基於實例的機器翻譯系統(EBMT)的翻譯質量水平。在某特定領域獲取高質量語料可以大大提高機器翻譯在此領域的翻譯質量,稱為語料(實例)庫的定制。
1.3. 統計型機器翻譯系統(Statistical MT):IBM公司的Brown在1990年首先將統計模型用於法-英機器翻譯。其基本思想是:把機器翻譯問題看成是壹個噪聲信道問題,然後用信道模型來進行解碼。翻譯過程被看作是壹個解碼的過程,進而變成尋求最優翻譯結果的過程。基於這種思想的機器翻譯重點是定義最合適的語言概率模型和翻譯概率模型,然後對語言模型和翻譯模型的概率參數進行估計。語言模型的參數估計需要大量的單語語料,翻譯模型的參數估計需要大量平行雙語語料。統計機器翻譯的質量很大程度上取決於語言模型和翻譯模型的性能,此外,要找到最優的譯文,還需要有好的搜索算法。簡單說,統計機器翻譯首先建立統計模型,然後使用實例庫中的實例對統計模型進行訓練,得到需要的語言模型和翻譯模型用於翻譯。
統計型機器翻譯,除了基於噪聲信道理論的系統以外,還有基於最大熵方法的系統。博格(A.L.Berger)在1996年 提出自然語言處理中“最大熵方法”(Maximum Entropy Approach)。德國人奧赫 (Franz Joseph Och)等發現, 把IBM公司的統計機器翻譯基本方程式中的翻譯模型轉變為反向翻譯模型,總體的翻譯正確率並沒有降低,由此,他們提出基於最大熵方法的機器翻譯模型。
統計型機器翻譯取得了壹定的成績,然而純統計設計卻不能解決所有困難。統計型的方法不考慮語言的語義、語法因素,單純用數學的方法來處理語言問題,有著巨大的局限性。於是人們開始探索基於統計方法和其它翻譯方法的聯合應用。如統計的和基於實例的機器翻譯系統,統計的和基於規則的機器翻譯系統,等等。
2. 綜合類型的機器翻譯系統:
以上三個基本機器翻譯系統各有優勢和長處,同時又不可避免的具有某種缺陷和局限性。如基於規則的機器翻譯系統(RBMT)可以準確的描述語言學特征和規律,然而制定適用和完備的語言規則卻不是壹件容易的事;基於實例的機器翻譯系統(EBMT)可以充分利用已有的翻譯結果,但是實例庫的維護需要大量的人工和費用;統計型的機器翻譯(Statistical以MT)可以緩解知識獲取的瓶頸問題,但是純數學的方法難於完全解決語言中的復雜問題。為進壹步提高機器翻譯系統的翻譯水平,人們綜合以上幾個基本類型的優勢,又發明了混合型機器翻譯系統(Hybrid器MT),多引擎機器翻譯系統(Multi-Engine MT)和提出了基於知識的機器翻譯系統(Knowledge-Based MT)的理論。
2.1 混合型機器翻譯系統(Hybrid MT):翻譯過程使用兩種或以上機器翻譯原理。比如:基於規則的機器翻譯方法的核心是構造完備的、適應性較強的規則系統。如何得到完備和適應性強的規則系統成為研究焦點。使用傳統的方法,語法規則庫的建立需要大量的人力、物力,大量的語言語法規則之間往往存在著不可避免的沖突,規則的完備性和適應性不能得到保證。隨著人們翻譯工作的進行,生成大量已完成的翻譯結果,形成大量語料。人們想到了使用統計方法從現有語料中自動提取我們需要的語言語法信息。從實例中抽取語言轉換規則,將基於實例的機器翻譯作為研究技術來建立語言規則基礎,而不是單純用來進行類比翻譯。通過壹個歸納的過程,從大量例句中提出抽象的規則 。這樣傳統的基於規則的機器翻譯方法發展成為以規則為基礎,語料庫為輔助的機器翻譯方法。這種翻譯模型可以稱之為混合型機器翻譯系統(Hybrid MT)。
2.2 多引擎機器翻譯系統(Multi-Engine MT):這種機器翻譯系統的基本思想是幾架機器翻譯引擎同時進行並行翻譯,並行翻譯的這幾架翻譯引擎分別基於不同的工作原理,給出多個翻譯結果,然後通過某種機制或算法篩選並生成最優翻譯結果進行輸出。多引擎機器翻譯系統的壹種工作方式如:接收到源文字後,先將文字轉化為若幹文字片段,由多個機器翻譯引擎進行並行翻譯,型各個文字片段均得到多個翻譯結果, 通過某種機制選擇最優的翻譯片段組成最優組合,最後輸出最優的翻譯結果。或者是接收到源文字後,由多個機器翻譯引擎進行並行翻譯,得到多個翻譯結果,然後對各個翻譯結果進行字詞的比較,通過某種假設檢驗和算法,選擇適當的字詞翻譯組成最優翻譯結果輸出。
2.3. 基於知識的機器翻譯系統(Knowledge-Based MT):在機器翻譯研究中,人們越來越發現在翻譯過程中正確的理解、領會源語言的重要性。語言有著其復雜性。其中語言的模糊性是各種機器翻譯系統所面對的最頑固的難題。語言的模糊性指語言文字同壹表層結構對應著兩種或兩種以上的深層結構,簡單說就是壹種形式對應著兩種或兩種以上的解釋,必須通過上下文內容的提示和綜合知識背景、常識才可能做出正確的詮釋。受人工智能,知識工程的發展影響,人們開始強調對源語言更為徹底的理解,提出不僅需要進行深層語言分析,還需要進行世界知識的積累和處理,建立知識庫,以助於理解語言。通過對世界知識的了解,解決機器翻譯中遇到的語言模糊問題。為了從根本上徹底的解決機器翻譯所面對的語言的模糊性問題,人們提出了基於知識的機器翻譯系統。
2.3.1 基於語義網的機器翻譯(Semantic Web based Machine Translation, SWMT):是基於知識的機器翻譯系統的壹種實現方式。語義網(Semantic Web),指通過某種技術,將現有網絡上的知識內容轉化為機器可以辨識的內容,成為機器翻譯的“世界知識庫”。這些理論基於Tim Berners-Lee提出的觀點“知識壹旦經定義和形式化後,便可以通過任意方式訪問”。萬維網最初的設計是希望它簡單,去中心化並且盡可能的易於互動。網絡的發展證明它是壹個巨大的成功。然而,網絡上面的信息都是面向人類大腦的。為了讓計算機也能夠接受和利用這些信息資源,在新的世紀壹種擴展和補充性質的技術出現了,分稱為W3C,Semantic Web3 (三維語義網)。三維語義網絡的基礎技術是數據格式的“資源描述構架”( ‘Resource Description Framework’,RDF), 它定義了壹種結構,用壹種自然的方式來描述計算機處理的巨大量的數據[8]。目前人們已經 在嘗試將現有的機器翻譯系統整合入語義網,以充分利用世界知識/專家知識, 提高機器翻譯質量。
3.語音翻譯(Speech Translation):語音翻譯是與文字翻譯相對應的壹種機器翻譯分類,與前面的分類有著不同。但是有著廣泛的應用,如日常交談、電話通話、會議講話等對語音交流內容的自動翻譯,在實際應用中非常重要。語音翻譯在翻譯之前增加了壹個語言識別(SpeechB Recognition)過程,形成正確的文字內容輸入,並且在翻譯過程完成後增加了壹個語音合成(Speech Synthesis)過程,
形成壹個正確的語音內容輸出。其中語音識別技術和語音合成技術都有著專門研究,這裏不再贅述。
作者姓名:洪潔
工作單位:傳神語聯網網絡科技股份有限公司 多語工程中心
作者姓名:洪雷
工作單位:中國科學院大學 外語系