當前位置:成語大全網 - 成語詞典 - 怎樣創建語料庫?

怎樣創建語料庫?

首先要明確建立的是單語語料庫還是雙語語料庫,因為用到的建庫軟件和方法不壹樣,單語語料庫的建立過程相對簡單壹些。

語料庫有多種類型,確定類型的主要依據是它的研究目的和用途,這壹點往往能夠在語料采集的原則和方式上有所體現。有人曾經把語料庫分成四種類型:⑴異質的(Heterogeneous):沒有特定的語料收集原則,廣泛收集並原樣存儲各種語料。

⑵同質的(Homogeneous):只收集同壹類內容的語料;⑶系統的(Systematic):根據預先確定的原則和比例收集語料,使語料具有平衡性和系統性,能夠代表某壹範圍內的語言事實;⑷專用的(Specialized):只收集用於某壹特定用途的語料。

除此之外,按照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bilingual)和多語的(Multilingual)。按照語料的采集單位,語料庫又可以分為語篇的、語句的、短語的。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構成譯文關系,多用於機器翻譯、雙語詞典編撰等應用領域,後者將表述同樣內容的不同語言文本收集到壹起,多用於語言對比研究。

已經累積了大量各種類型的語料庫,如:葡萄牙語料庫、面向文本分類研究的中英文新聞分類語料庫、路透社文本分類訓練語料庫、中文文本分類語料庫、大開放字幕庫OpenSubtitles的多語言平行語料數據(OpenSubtitles Corpus)、《聖經》雙語語料庫("Bible" bilingual corpus)、Short messages service(SMS) corpus(短消息服務(SMS)語料)等。