當前位置:成語大全網 - 英語詞典 - 專利文獻的檢索工具(系統) 能自動翻譯專利文獻的翻譯系統

專利文獻的檢索工具(系統) 能自動翻譯專利文獻的翻譯系統

本文介紹了壹個面向專利文獻翻譯的、實用的漢英機器翻譯系統,包括系統的總體設計、系統中使用的主要翻譯技術等。 隨著我國對知識產權認識的不斷提高以及國際交流的迫切需要,傳統的由專利翻譯人員進行手工翻譯的方式已經不能滿足目前急劇增長的專利文獻翻譯需求,壹定程度上阻礙了我國專利技術的推廣和交流。機器自動翻譯和輔助翻譯正是解決這壹問題的有效途徑。近年來機器翻譯技術取得了很大的突破,特別是統計機器翻譯技術的發展,使得翻譯質量有了很大的提高,為專利文獻翻譯提供了新的有力的手段。

專利文獻翻譯的特點

相對於普通文本的翻譯來說,專利文獻翻譯具有以下特點:

● 涉及的專業領域多。專利文獻具有很強的領域特性,直接利用現有的通用翻譯軟件很難得到理想的翻譯結果。不過專利文獻所屬的領域可以根據國際專利分類號劃分,相對比較清楚。同時,專利翻譯經過多年的積累,比較容易獲得特定領域的雙語平行語料庫(Parallel Corpus),這對機器翻譯的語料收集和語料的領域劃分提供了方便。

● 使用的專業術語和法律術語多。專利文獻中包含大量的專業術語和法律術語,因此對譯員的綜合素質要求很高。相應的,專利翻譯所需支付的報酬也非常高。舉例來說,在國外將本國語言譯成外文所支付的翻譯費大約在每100個源詞30~50美元。對壹些比較罕見的語種,翻譯服務的價格還會更高。因此利用自動翻譯或輔助翻譯解決專業術語和法律術語的翻譯問題,可以大大降低專利翻譯的成本。

● 翻譯的語言種類多。由於專利文獻具有壹定的國別特性,因此專利文獻往往需要實現不同語言之間的翻譯。如果每種語言翻譯方向都建立壹個翻譯系統則需要大量的開發成本。因此,使用語言無關性好的翻譯技術是比較合理的選擇。

● 文獻形式規範、語言嚴謹。專利文獻具有壹定的法律文件特性,因此相對於新聞或口語翻譯,文本的格式比較固定,用語也較為規範。專利文獻中經常包含壹些固定句型,即俗稱的“句套子”,如“本發明的目的是X”,“權力要求N所述的X,其特征是Y”,其中X、Y可以是任意詞語或句子,N是任意數詞組合。這些句型模板適合機器的自動翻譯。

通過分析專利文獻的上述特點可以看出,對於形式比較規範、領域比較確定的專利翻譯而言,使用機器翻譯方法是有可能取得較好的翻譯效果的。特別是最近快速發展的統計機器翻譯技術,具有語言無關性好、領域可移植性好、知識獲取方便、開發周期短等特點,非常適合用於構建專利文獻翻譯系統。

中科院計算所多語言交互技術實驗室在機器翻譯方面有著多年的研究經驗,近年來在統計機器翻譯方面的研究取得了很好的成績。而北京東方靈盾科技有限公司對專利文獻翻譯有巨大需求,希望借助於自動翻譯軟件進壹步提高翻譯質量和翻譯效率。受東方靈盾科技有限公司委托,計算所研究人員利用多語言交互實驗室已經積累的統計機器翻譯技術,結合專利文獻翻譯的特點,設計並實現了壹個特定領域的漢英專利文獻翻譯系統。該系統目前的翻譯領域為傳統中藥專利文獻。由於采用了以統計為主的機器翻譯技術,該系統可以很容易地移植到其他技術領域的專利翻譯。

系統總體設計

為了方便大規模、多用戶、並發執行的任務需求,本系統采用了服務器/客戶端的網絡服務模式,並采用多線程調度。系統的物理結構和邏輯流程如下:

1.物理結構

漢英專利文獻機器翻譯系統的物理結構由兩部分組成,包括:

● 翻譯引擎服務器: 負責提供翻譯服務,管理翻譯資源。

● 客戶端: 負責向用戶呈現翻譯結果,提供輔助翻譯工具,將用戶請求提交給服務器。

其中,服務器端主要放置翻譯核心解碼器及其所需的各種資源,如短語表、語言模型、模板庫、詞典、記憶庫等。服務器端對這些資源進行統壹管理,合理調度,同時服務器端負責各用戶線程的調度與時間片分配,協調各用戶提交的任務的優先級。

客戶端又分為普通用戶客戶端和管理員用戶客戶端,不同的用戶具有不同的權限。客戶端提供方便的用戶編輯、修改界面,同時提供給用戶查看任務狀態及服務器狀態的功能,並能對服務器上的部分資源進行實時訪問和修改,通過客戶端,用戶能夠方便地批量上傳文件進行翻譯,並可以對返回的結果進行修改、重新提交翻譯、批量導出翻譯結果等。

服務器和客戶端兩部分均為可獨立運行的進程,通過網絡實現互相連接。

2. 邏輯流程

系統邏輯結構是系統的整體業務框架,它描述了從數據輸入,經過系統的內部處理得到期望結果,壹直到最後輸出的全過程(本系統的邏輯流程參考圖見圖1)。

具體來說,該系統的主要流程描述如下:

● 翻譯服務: 負責翻譯用戶提交的句子或文本文件,輸出翻譯結果。翻譯過程中會調用記憶庫管理程序、詞典管理程序、模板庫管理程序,還要訪問統計翻譯模型庫。

● 記憶庫管理: 負責組織、管理記憶庫,執行翻譯實例的查詢、添加、修改、刪除、導出等操作。當用戶或翻譯程序提交記憶庫操作請求後,記憶庫管理模塊訪問記憶庫,執行相應操作並反饋結果。

● 詞典管理: 負責組織、管理系統的各個詞典,執行詞典查詢、添加、刪除,批量導入和導出等操作。當用戶或翻譯程序提交詞典操作請求後,詞典管理模塊訪問系統詞典庫,執行相應操作並反饋結果。

● 模板庫管理: 負責組織、管理模板庫,執行模板的查詢、添加、修改,刪除、導入、導出等操作。當用戶或翻譯程序提交模板操作請求後,模板管理模塊訪問模板庫,執行相應操作並反饋結果。

● 用戶管理: 負責接收和執行用戶的添加、刪除、權限設定等操作。

系統使用的主要翻譯技術

該系統以統計翻譯技術為主,融合了基於模板和基於記憶的翻譯方法。

1. 基於統計的翻譯

統計機器翻譯技術是目前國際上領先的機器翻譯技術,克服了傳統的基於規則翻譯方法的主要弊端。在傳統的基於規則的機器翻譯方法中,翻譯知識主要體現為詞典和規則,而詞典和規則主要依靠人類專家來編寫。這種方法存在的主要問題是: 人類專家編寫語言知識需要耗費大量的人力、物力和時間; 編寫的知識很難全面覆蓋真實翻譯環境中面臨的各種問題; 編寫的語言知識在面臨沖突時沒有好的解決辦法; 編寫的語言知識不方便移植到不同的語種和領域。而在統計機器翻譯中,所有的翻譯知識全部來源於真實的雙語平行語料庫(parallel corpus),通過統計建模自動學習雙語平行語料庫中的翻譯知識,因此克服了人類專家編寫知識所面臨的主要問題。總結起來統計機器翻譯具有以下優點:

(1)易於移植到不同知識領域。只要獲得新領域的雙語平行語料庫,就可以快速構造出適用於該領域的翻譯系統。專利具有規範的領域劃分體系,容易獲得不同領域的專利翻譯文本,因此統計機器翻譯的這壹特性特別適合用於專利翻譯系統。

(2)易於移植到不同語言。統計機器翻譯具有最大的語言無關性,僅需要很少的語言處理就可以構造出新語言對的翻譯系統。這對於需要翻譯成多種語言的專利來說大大減少了系統開發的代價。

(3)不需要人工撰寫規則。所有翻譯知識都是從雙語平行語料庫中自動獲取的,因此大大降低了系統開發所需要的人力、物力和時間。統計翻譯系統以統計模型為依據,在克服知識的沖突上也有比較合理的解決辦法。

(4)系統的翻譯質量能夠隨著訓練數據的增加逐漸提高。隨著專利翻譯系統的使用,可以產生出越來越多的雙語平行語料,這些語料可以進壹步提高系統的翻譯性能,使翻譯質量在使用過程中不斷得到提升。

在系統實現中研究人員采用了基於短語的統計機器翻譯模型。該模型以短語作為基本翻譯單元,所有短語翻譯都是從雙語語料庫中自動獲取的,同時獲得的還有短語間的翻譯概率,即翻譯模型。此外,在訓練階段我們還獲取了目標語言模型。在翻譯過程中,翻譯模塊根據訓練得到的翻譯模型和語言模型,通過壹定的解碼算法選取概率最大的候選短語翻譯組合作為整個句子的翻譯結果。

2.基於模板的翻譯

基於模板的方法便於系統翻譯具有相似模式的句子。在特定領域的專利文獻中經常會包含壹些固定的句型模式,例如,下面是傳統中藥領域幾個專利的標題:

壹種治療風濕性心臟病的中藥

壹種治療骨質增生的藥袋

壹種具有安神作用的無糖型中藥組合物及其制備方法

壹種具有減肥作用的膏狀保健食品及其制備方法

可以看出,這些標題具有很大的句型相似性,可以用兩個模板來概括: “壹種治療X的Y”和“壹種具有X作用的Y及其制備方法”。在翻譯系統中,壹個完整的翻譯模板包括“模板的源語言部分”和“模板的目標語言部分”,每部分又分為“模板的常量部分”和“模板的變量”部分。如以上兩個模板在本翻譯系統中表示如下:

壹種治療##1{…}的##2{…}

==>A ##2 for the treatment of ##1

壹種具有##1{…}作用的##2{…}及其制備方法

==>A ##2 having ##1 effects and its preparation method

其中,“##N”為模板的變量部分,“N”用於區分不同變量在目標語言中的對應關系。在變量後面的“{…}”中,允許添加壹些約束用來限制變量的匹配,如允許匹配的字符串的長度、匹配的模式(從句首匹配或從句尾匹配),以及變量中必須包含或不許包含的詞等,以增加模板的表達能力。這裏的模板既可以匹配整個句子,也允許匹配子句。

經過模板匹配後,上面幾個例句被翻譯成如下形式:

A 中藥for the treatment of 風濕性心臟病

A 藥袋for the treatment of 骨質增生

A 無糖型中藥組合物 having 安神 effects and its preparation method

A 膏狀保健食品 having 減肥 effects and its preparation method

可以看到,通過句型模板匹配,不僅可以很好地解決壹些固定句型的翻譯,同時也實現了壹些長距離的句子調序,彌補了基於短語的統計翻譯方法在長距離調序方面的不足。其次,經過模板匹配,模板中的壹些常量已經被正確翻譯了,統計翻譯解碼器只需要翻譯剩下的短語片段,可以在壹定程度上減輕統計解碼器的負擔。

本系統中定義的句型模板表達直觀,便於語言工作人員理解,使用者可以根據待翻譯文本句式的特點自己增加翻譯模板,大大增加了系統的靈活度。

3.基於記憶的翻譯

用戶在使用系統的過程中,可以把翻譯正確的句子批量添加到記憶庫中。在翻譯過程中,如果記憶庫中存在相同的句子,系統可以迅速搜索到它的正確翻譯。當記憶庫累積到壹定規模後還可以增加到訓練語料庫中,進壹步提高系統自動翻譯的質量。

此外,本翻譯系統還允許用戶根據需要添加領域翻譯詞典和用戶翻譯詞典,增強了用戶對系統的調控能力。

圖2以壹段漢語文本的翻譯為例,給出了系統的主要翻譯流程。從中讀者可以看出前述的各種翻譯技術在整個翻譯過程中的作用和所處的位置。對於壹段輸入的漢語文本,首先通過記憶庫管理模塊查找翻譯記憶庫,如果已經存在翻譯結果,直接返回; 否則,系統調用詞語切分工具進行漢語分詞,並對分詞的結果進行後處理,然後調用模板匹配模塊對文本進行模板匹配,最後進行基於統計的翻譯。統計翻譯時需要調用統計翻譯模型庫,即翻譯模型和語言模型。

系統實現的主要功能和性能

用戶通過系統提供的用戶界面可以方便地打開修改文件,並可以動態地添加翻譯詞條、翻譯模板來指導翻譯結果,同時對於修改中的生僻詞可以即時地查找詞典,對修改後的正確結果可以批量地添加到記憶庫中。在修改的同時,用戶仍然可以批量地提交翻譯任務到服務器進行排隊處理,待任務翻譯完畢後會提示用戶下載翻譯結果文件。該系統的設計充分考慮到了多用戶、多任務並發執行的情況,批量的翻譯任務統壹在服務器後臺處理,不影響客戶端的其他非翻譯任務的執行。

1.翻譯質量

系統采用東方靈盾科技有限公司提供的傳統中藥領域的8萬句對(平均句長31個詞)進行訓練。翻譯質量的評價采用國際上通用的評價指標Bleu和通用的評價工具mteval-v11b.pl。在訓練語料之外的200句測試集上,在只有壹個標準參考答案句子的情況下,系統自動翻譯的Bleu值是0.3020。

這裏和國際上最新的機器翻譯水平做壹比較: 在2006年國際著名的NIST機器翻譯漢英翻譯的大規模數據集合評測中,NIST子集(每個句子有4個參考答案譯文)的最好成績是0.3393, Gale子集(每個句子有1個參考答案譯文)的最好成績是0.1470。NIST機器翻譯評測所使用的訓練數據和測試數據都是來自新聞領域的,其訓練數據的規模遠遠大於本專利翻譯系統所使用的訓練數據的規模。雖然兩者不具有直接的可比性,但是可以看出,僅使用很少的訓練語料,該系統在專利領域的翻譯水平已經達到甚至超過國際上最好的新聞領域的翻譯水平。

2.翻譯速度

翻譯速度用每小時翻譯多少字來衡量。目前本系統的翻譯速度是14萬字/小時。以每個專利題目平均20個字,每個專利文摘平均200個字計算,系統工作12小時可以完成8.4萬個標題或8400個文摘的自動翻譯。這種翻譯速度完全可以滿足日常輔助翻譯工作的需要。

綜上所述,該系統采用國際領先的統計翻譯技術,結合基於模板和基於記憶的翻譯方法,實現了壹個實用的漢英專利文獻翻譯系統。該系統不僅可以實現自動翻譯功能,還提供了方便的輔助翻譯功能,用戶可以對自動翻譯的結果進行修改,同時可以動態地添加詞典、模板來指導翻譯,對修改後的正確結果還可以批量地添加到記憶庫中。該系統目前已經進入試用階段,其翻譯質量和翻譯速度已經滿足用戶的基本需求。

(本文作者付雷、黃瑾、何中軍、劉群為中科院計算技術研究所碩士研究生)