1.轉換
首先,我們來簡單了解壹下規則的含義,它本質上是壹個“IF-THEN”語句。如果滿足條件,則執行相應的語義動作。壹個簡單的分詞消歧規則如下:規則1:如果w = "individual ",WLeft = numeral那麽W = "individual/person /" ENDIF解釋:當前單詞是" individual "。如果左邊的詞是數詞,那麽當前的詞就分為“個人”和“人”兩個詞。因為“個人”有兩種分詞方法:個人或人,稱為分詞歧義,需要根據上下文信息判斷哪個分詞結果是正確的。我們可以根據壹些例子來總結上述消歧規則。比如“壹個人”裏,“個”是量詞,“個人”需要分開。分詞系統會根據這個規則進行正確的操作,實現正確的分詞過程。這是基於規則的方法的基本思想。
在介紹基於轉換規則的機器翻譯方法之前,我們先了解壹下,基於規則的機器翻譯方法可以分為不同的層次,取決於翻譯規則所使用的知識水平。基於規則的方法至少可以分為四個層次:詞匯轉換、句法轉換、語義轉換和中間語言層。上層可以繼承下層的翻譯知識,比如句法轉換層會用到詞匯轉換層的知識。前面提到的早期基於規則的方法屬於詞法轉換層。所謂層次不同,就是用不同的知識編寫規則來完成機器翻譯過程。這樣,我們就可以構建不同層次的基於規則的機器翻譯系統。
壹般來說,壹個典型的基於轉換規則的機器翻譯過程可以描述為“獨立分析-獨立生成-相關轉換”的方法。機器翻譯的整個過程可以分為六個步驟:1)源語言的詞法分析2)源語言的詞法分析3)源語言和目標語言的詞法轉換4)源語言和目標語言的結構轉換5)目標語言的詞法生成6)目標語言的詞法生成。每壹步都由相應的翻譯規則來完成,比如第壹步需要構建源語言的詞法分析規則,第二步需要構建源語言的詞法分析規則。壹般來說,翻譯規則可以分為兩類:壹般規則和個別規則。所謂通用規則,主要用於句法分析、語義分析、結構轉換和句法生成,並不是專門依賴於某壹源語言或目標語言詞匯而設計的翻譯規則;個性規則通常是通過具體的源詞來索引的,比如上面提到的“個人”分詞消歧個性規則,直接對壹個具體的詞進行分析翻譯。
個性規則通常保存在詞庫中,每個特定的個性規則都會關聯壹個特定的詞匯,壹個詞匯可能關聯多個個性規則。在翻譯過程中,根據當前分析的單詞激活相關的個性規則用於翻譯過程。通用規則通常存儲在壹個規則庫中,並根據其用途進行組織,如分詞規則庫、句法分析規則庫等。
公共規則庫可以包含許多不同的公共翻譯規則。因為這些規則沒有優先級,所以使用它們的相對簡單的方法是從壹開始就匹配它們。壹旦激活了壹個公共規則,它將從頭開始繼續匹配,直到沒有找到特定的公共翻譯規則。有時候在實際應用中,為了避免通用翻譯規則覆蓋不全,我們通常會將默認的通用翻譯規則默認設置為某壹天的最後選擇,比如默認采用最可能的操作,以保證分析翻譯過程能夠繼續,不會導致分析翻譯失敗。
2.基於中介語的方法
基於轉換的方法可以通過詞匯層、句法層和語義層完成源語言和目標語言之間的轉換過程。雖然它采用了獨立分析和獨立生成兩個子過程,但中間有壹個從源語言到目標語言的相關轉換過程。這將導致壹個實際問題。假設我們需要實現壹個在N種語言之間進行翻譯的機器翻譯系統,我們需要建立N(N-1)個不同的基於變換的機器翻譯系統。這個建設成本非常高。為了解決這個問題,壹個有效的解決方案是基於中間語言的方法。
基於中間語言的方法最大的特點是采用壹種稱為“中間語言”的知識表示結構作為獨立源語言分析和獨立目標語言生成之間的橋梁,真正實現了獨立分析和獨立生成的思想,與基於轉換的方法不同,因為它不涉及“相關轉換”的過程。假設構建壹個翻譯四種語言的機器翻譯系統,基於中間語言的方法需要構建四個獨立的分析器和四個獨立的生成器。所謂分析生成,是指從語言到中間語言的轉換,以及從中間語言到語言的轉換。基於轉換的方法需要建設12套不同語言方向的機器翻譯系統,顯然建設成本會高很多。
中介語(知識表征)本質上獨立於源語言和目標語言,可以將分析過程和生成過程分開,真正實現獨立的分析和生成過程。有壹個關鍵問題需要回答:如何定義壹種中間語言?嚴格來說,所謂中間語言本身就是壹種知識表示結構,它承載著源語句的分析結果,應該包含和體現盡可能多的源語言的知識,並能在生成過程中使用。如果中間語言的表達能力不強,源句的很多子信息就會丟失,自然會影響目標語言生成結果。
目前,有許多知識表示用於構造中間語言結構,如語法樹、語義網、邏輯結構表示或各種結構的融合。然而,這兩種方法都不能完全表達源句所攜帶的信息。在實際應用中,基於中間語言的機器翻譯方法明顯弱於基於變換的機器翻譯方法,這也是合理的。此外,為了將源語句分解到中間語言結構中,基於中間語言的方法由於目前的詞法分析、句法分析和語義分析技術的不完善的準確性而存在壹些分析誤差,這必然會影響基於中間語言的目標語言生成的性能。
3.規則方法的優缺點
基於人工編寫翻譯規則的機器翻譯方法的主要優點是直觀。語言學家可以很容易地用規則表達翻譯知識,書面翻譯規則可讀性更強。其次,翻譯規則的編寫粒度非常具有擴展性。粒度大的翻譯規則泛化能力強,如通用翻譯規則;粒度更小的翻譯規則具有精細的描述能力,比如個性化的翻譯規則。再次,翻譯規則便於處理復雜的句法結構和深層的語義理解,比如解決翻譯中的遠距離依賴問題。第四,基於規則的機器翻譯系統適應性強,完全不依賴於特定的雙語訓練語料,不同於數據驅動的機器學習方法,包括後來的統計機器翻譯和神經機器翻譯方法。
基於規則的機器翻譯方法最大的問題是人工編寫翻譯規則非常困難,成本也很高,這也是大家所詬病的。後來的數據驅動的機器翻譯方法主要攻擊這壹點,認為機器學習方法可以脫離人工編寫翻譯規則的痛苦。其次,負責翻譯規則手工編寫的因素較重,因人而異,有時與客觀事實有壹定差距。再次,翻譯規則覆蓋面差,尤其是細粒度的翻譯規則難以全面概括,比如詞匯驅動的個性化翻譯規則編寫。第四,上面提到的翻譯規則通常是按照形式語法規範編寫的,壹些復雜的語言現象很難描述。第五,翻譯規則通常沒有優先級,系統調試非常枯燥,新增加的翻譯規則容易與現有的翻譯規則沖突,這就是所謂的蹺蹺板現象。這個問題目前沒有很好的解決辦法。
事實上,從實際應用來看,基於規則的機器翻譯方法還不夠健壯,壹些復雜的句子或者不規則的句子往往翻譯不出來。本質上,不可能找到合適的翻譯規則來完成整個翻譯過程。簡單來說就是容錯能力差。