當前位置:成語大全網 - 英語詞典 - 雙語或多語言語料庫

雙語或多語言語料庫

大致可以分為三類:

壹是研究雙語語料庫的對齊技術。國內外學者對此提出了許多策略和方法,出現了許多雙語或多語語料庫對齊的程序或工具[Gale 1993]。

二是研究雙語語料庫的各種應用,如基於統計的機器翻譯技術[Brown 1990]、基於案例的機器翻譯技術[高娜1984]和雙語詞典編纂技術[Klavans和Tzoukermann 1990],其中雙語語料庫起著非常重要的作用;

三是雙語語料庫的設計、收集、編碼和管理。眾所周知的語料庫編碼方案包括TEI文本編碼標準和CES標準,這兩個標準都是基於SGML標記語言。

指具有壹種以上語言的語料庫。分為平行語料庫和控制語料庫。平行語料庫是指庫中兩個或兩個以上的文本是彼此的譯文,因此可以用於翻譯或機器翻譯研究;比較語料庫中兩種或兩種以上語言的文本,不構成翻譯關系,但領域相同,主題相似。通常它只能用於兩種或兩種以上語言的比較。

就前兩類研究而言,我國已經做了大量的後續研究,但對於第三類研究,即雙語語料庫的建設、編碼和管理的研究,尤其是涉及漢語的研究,似乎探索工作相對較少。

目前國內最大的語言交流平臺是瓦特開元。