當前位置:成語大全網 - 成語詞典 - 機器翻譯的簡 史

機器翻譯的簡 史

(1947-1964)

1954 年,美國喬治敦大學(Georgetown University) 在 IBM 公司協同下, 用 IBM-701計算機首次完成了英俄機器翻譯試驗,向公眾和科學界展示了機器翻譯的可行性,從而拉開了機器翻譯研究的序幕。

中國開始這項研究也並不晚, 早在1956年,國家就把這項研究列入了全國科學工作發展規劃,課題名稱是“機器翻譯、自然語言翻譯規則的建設和自然語言的數學理論”。1957 年,中國科學院語言研究所與計算技術研究所合作開展俄漢機器翻譯試驗,翻譯了9 種不同類型的較為復雜的句子。

從20世紀50年代開始到20世紀60年代前半期,機器翻譯研究呈不斷上升的趨勢。美國和前蘇聯兩個超級大國出於軍事、政治、經濟目的,均對機器翻譯項目提供了大量的資金支持,而歐洲國家由於地緣政治和經濟的需要也對機器翻譯研究給予了相當大的重視,機器翻譯壹時出現熱潮。這個時期機器翻譯雖然剛剛處於開創階段,但已經進入了樂觀的繁榮期。 (1964-1975)

1964年,為了對機器翻譯的研究進展作出評價,美國科學院成立了語言自動處理咨詢委員會(Automatic Language Processing Advisory Committee,簡稱ALPAC委員會),開始了為期兩年的綜合調查分析和測試。

1966年11月,該委員會公布了壹個題為《語言與機器》的報告(簡稱ALPAC報告) ,該報告全面否定了機器翻譯的可行性,並建議停止對機器翻譯項目的資金支持。這壹報告的發表給了正在蓬勃發展的機器翻譯當頭壹棒,機器翻譯研究陷入了近乎停滯的僵局。無獨有偶,在此期間,中國爆發了“十年文革” ,基本上這些研究也停滯了。機器翻譯步入蕭條期。 (1975-1989)

進入 70 年代後,隨著科學技術的發展和各國科技情報交流的日趨頻繁,國與國之間的語言障礙顯得更為嚴重,傳統的人工作業方式已經遠遠不能滿足需求,迫切地需要計算機來從事翻譯工作。 同時,計算機科學、語言學研究的發展,特別是計算機硬件技術的大幅度提高以及人工智能在自然語言處理上的應用,從技術層面推動了機器翻譯研究的復蘇,機器翻譯項目又開始發展起來,各種實用的以及實驗的系統被先後推出,例如 Weinder 系統、EURPOTRA 多國語翻譯系統、TAUM-METEO系統等。

而我國在“十年浩劫”結束後也重新振作起來,機器翻譯研究被再次提上日程。“784”工程給予了機器翻譯研究足夠的重視,80 年代中期以後,我國的機器翻譯研究發展進壹步加快,首先研制成功了 KY-1 和MT/EC863 兩個英漢機譯系統,表明我國在機器翻譯技術方面取得了長足的進步。 (1990至今)

隨著 Internet 的普遍應用,世界經濟壹體化進程的加速以及國際社會交流的日漸頻繁,傳統的人工作業的方式已經遠遠不能滿足迅猛增長的翻譯需求,人們對於機器翻譯的需求空前增長,機器翻譯迎來了壹個新的發展機遇。國際性的關於機器翻譯研究的會議頻繁召開,中國也取得了前所未有的成就,相繼推出了壹系列機器翻譯軟件,例如“譯星” 、 “雅信” 、 “通譯” 、 “華建”等。在市場需求的推動下,商用機器翻譯系統邁入了實用化階段,走進了市場,來到了用戶面前。

新世紀以來,隨著互聯網的出現和普及,數據量激增,統計方法得到充分應用。互聯網公司紛紛成立機器翻譯研究組,研發了基於互聯網大數據的機器翻譯系統,從而使機器翻譯真正走向實用,例如“百度翻譯”,“谷歌翻譯”等。近年來,隨著深度學習的進展,機器翻譯技術的到了進壹步的發展,促進了翻譯質量的快速提升,在口語等領域的翻譯更加地道流暢。 研究重點是詞法和句法,以上下文無關文法為代表,早期系統大多數都屬這壹類型。語法型系統包括源文分析機構、源語言到目標語言的轉換機構和目標語言生成機構3部分。源文分析機構對輸入的源文加以分析,這壹分析過程通常又可分為詞法分析、語法分析和語義分析。通過上述分析可以得到源文的某種形式的內部表示。轉換機構用於實現將相對獨立於源文表層表達方式的內部表示轉換為與目標語言相對應的內部表示。目標語言生成機構實現從目標語言內部表示到目標語言表層結構的轉化。

60年代以來建立的機器翻譯系統絕大部分是這壹類機器翻譯系統。它們的特點是:①把句法的研究放在第壹位,首先用代碼化的結構標誌來表示原語文句的結構,再把原語的結構標誌轉換為譯語的結構標誌,最後構成譯語的輸出文句;②對於多義詞必須進行專門的處理,根據上下文關系選擇出恰當的詞義,不容許把若幹個譯文詞壹攬子列出來;③語法與算法分開,在壹定的條件之下,使語法處於壹定類別的界限之內,使語法能由給定的算法來計算,並可由這種給定的算法描寫為相應的公式,從而不改變算法也能進行語法的變換,這樣,語法的編寫和修改就可以不考慮算法。第2類機器翻譯系統不論在譯文的質量上還是在使用的方便上,都比第1類機器翻譯系統大大地前進了壹步。 研究重點是在機譯過程中引入語義特征信息,以Burtop提出的語義文法和Charles Fillmore提出的格框架文法為代表。語義分析的各種理論和方法主要解決形式和邏輯的統壹問題。利用系統中的語義切分規則,把輸入的源文切分成若幹個相關的語義元成分。再根據語義轉化規則,如關鍵詞匹配,找出各語義元成分所對應的語義內部表示。系統通過測試各語義元成分之間的關系,建立它們之間的邏輯關系,形成全文的語義表示。處理過程主要通過查語義詞典的方法實現。語義表示形式壹般為格框架,也可以是概念依存表示形式。最後,機譯系統通過對中間語義表示形式的解釋,形成相應的譯文。

70年代以來,有些機器翻譯者提出了以語義為主的第3類機器翻譯系統。引入語義平面之後,就要求在語言描寫方面作壹些實質性的改變,因為在以句法為主的機器翻譯系統中,最小的翻譯單位是詞,最大的翻譯單位是單個的句子,機器翻譯的算法只考慮對壹個句子的自動加工,而不考慮分屬不同句子的詞與詞之間的聯系。第3類機器翻譯系統必須超出句子範圍來考慮問題,除了義素、詞、詞組、句子之外,還要研究大於句子的句段和篇章。為了建立第3類機器翻譯系統,語言學家要深入研究語義學,數學家要制定語義表示和語義加工的算法,在程序設計方面,也要考慮語義加工的特點。 目標是采用人工智能的最新成果,實現多路徑動態選擇以及知識庫的自動重組技術,對不同句子實施在不同平面上的轉換。這樣就可以把語法、語義、常識幾個平面連成壹有機整體,既可繼承傳統系統優點,又能實現系統自增長的功能。這壹類型的系統以中國科學院計算所開發的IMT/EC系統為代表。