語料庫是指經過科學采樣和處理的大型電子文本庫,其中存儲了在語言實際使用中真正出現過的語言材料。
語料的類型有很多種,確定類型的主要依據是其研究目的和用途,這往往可以體現在語料收集的原則和方法上。有人曾把語料庫分為四種類型:
(1)異構性:沒有具體的語料收集原則,各種語料被廣泛收集並原樣存儲;
(2)同質:只收集同類內容的語料庫;
⑶系統性:按照預定的原則和比例收集語料,使語料均衡、系統,能夠代表壹定範圍內的語言事實;
⑷專門化:只收集用於特定目的的語料庫。
此外,根據語料庫的語言,語料庫還可以分為單語語料庫、雙語語料庫和多語種語料庫。根據語料庫的收集單位,語料庫可以分為文本、句子和短語。
根據語料庫的組織形式,雙語和多語語料庫還可以分為平行(對齊)語料庫和比較語料庫。前者語料庫構成翻譯關系,多用於機器翻譯、雙語詞典編纂等應用領域,後者收集表達相同內容的不同語言文本,多用於語言對比研究。
積累了大量各種類型的語料庫,如:
葡萄牙語語料庫、面向文本分類研究的漢英新聞分類語料庫、路透社文本分類訓練語料庫、中文文本分類語料庫、open subtitle庫的多語種平行語料庫數據(open subtitle語料庫)、短信服務(SMS語料庫)等。