壹是研究雙語語料庫的對齊技術。國內外學者對此提出了許多策略和方法,出現了許多雙語或多語語料庫對齊的程序或工具[Gale 1993]。
二是研究雙語語料庫的各種應用,如基於統計的機器翻譯技術[Brown 1990]、基於案例的機器翻譯技術[高娜1984]和雙語詞典編纂技術[Klavans和Tzoukermann 1990],其中雙語語料庫起著非常重要的作用;
三是雙語語料庫的設計、收集、編碼和管理。眾所周知的語料庫編碼方案包括TEI文本編碼標準和CES標準,這兩個標準都是基於SGML標記語言。
指具有壹種以上語言的語料庫。分為平行語料庫和控制語料庫。平行語料庫是指庫中兩個或兩個以上的文本是彼此的譯文,因此可以用於翻譯或機器翻譯研究;比較語料庫中兩種或兩種以上語言的文本,不構成翻譯關系,但領域相同,主題相似。通常它只能用於兩種或兩種以上語言的比較。
就前兩類研究而言,我國已經做了大量的後續研究,但對於第三類研究,即雙語語料庫的建設、編碼和管理的研究,尤其是涉及漢語的研究,似乎探索工作相對較少。
目前國內最大的語言交流平臺是瓦特開元。