指經過科學采樣和處理的大型電子文本庫。借助計算機分析工具,研究者可以開展語言理論和應用的相關研究。
文集
名詞(noun的縮寫)(pl。語料庫)
指的是大量經過取樣和處理的電子文本,在這些文本上,語言研究,無論是理論的還是應用的,都可以在計算機工具的幫助下進行。
語料庫是語料庫語言學研究的基礎資源,也是實證語言研究方法的主要來源。它可用於詞典編纂、語言教學、傳統語言研究、自然語言處理中的統計或基於案例的研究等等。語料的類型有很多種,確定類型的主要依據是其研究目的和用途,這往往可以體現在語料收集的原則和方法上。有人曾將語料庫分為四種:①異構型:沒有具體的語料庫收集原則,各種語料庫被廣泛收集並原樣存儲;(2)同質:只收集同類內容的語料庫;⑶系統性:按照預定的原則和比例收集語料,使語料均衡、系統,能夠代表壹定範圍內的語言事實;⑷專門化:只收集用於特定目的的語料庫。
此外,根據語料庫的語言,語料庫還可以分為單語語料庫、雙語語料庫和多語種語料庫。根據語料庫的收集單位,語料庫可以分為文本、句子和短語。根據語料庫的組織形式,雙語和多語語料庫還可以分為平行(對齊)語料庫和比較語料庫。前者語料庫構成翻譯關系,多用於機器翻譯、雙語詞典編纂等應用領域,後者收集表達相同內容的不同語言文本,多用於語言對比研究。積累了大量各種類型的語料庫,如:葡萄牙語樹數據庫、面向文本分類研究的漢英新聞分類語料庫、路透社文本分類訓練語料庫、中文文本分類語料庫、open subtitle庫(OpenSubtitles Corpus)多語種平行語料庫數據、聖經雙語語料庫、短信服務(SMS)語料庫等。語料庫有三個特點。
1.語料庫包含了在語言實際使用中真正出現過的語言材料,因此例句庫不應算作語料庫。
語料庫是承載語言知識的基礎資源,但不等於語言知識;
3.真正的語料庫需要經過加工(分析處理),才能成為有用的資源。
語料庫的發展經歷了早期(計算機發明之前)、第壹代語料庫、第二代語料庫和第三代語料庫。