當前位置:成語大全網 - 成語詞典 - 如何建立自己的語料庫

如何建立自己的語料庫

基本上沒有辦法建立相應的語料庫,優質的原語料是優質語料庫的前提。

動態變化的語料庫:大眾傳播媒體的情況是在不斷變化的,語料庫也要相應變化.(例如:1978年,中國報紙只有186種,基本上是單壹的黨委機關報,到1995年底,已經增加到2202種,平均期印數增加4倍,總印張增加3·5倍,報紙的品種,功能,發行都有了相當大的變化如果要科學地反應語言的流通應用情況,語料庫的容量,選材,抽樣等怎麽可能壹成不變呢)。

擴展資料:

語料庫的分類:

1、是研究雙語語料的對齊技術(Alignment),國內外學者就此提出多種策略和方法,已經出現了許多對齊雙語或多語語料的程序或工具[Gale 1993];

2、是研究雙語語料的各種應用,如在基於統計的機器翻譯技術[Brown 1990]、基於實例的機器翻譯技術[Nagao 1984],雙語詞典編纂[Klavans and Tzoukermann 1990]技術中,雙語語料庫都發揮著十分重要的作用;

3、是雙語語料庫的設計、采集、編碼和管理問題。比較著名的語料庫編碼方案有TEI 文本編碼標準以及CES標準,兩者均基於SGML標記語言研究

指不只有壹種語言的語料庫。分為平行語料庫和對照語料庫兩種。平行語料庫指庫中的兩種或多種文本互相是對方的譯文,因此可以用於翻譯或者機器翻譯研究;對照語料庫中兩種或多種語言的文本不構成對譯關系,只是領域相同,主題相近。通常只能用於兩種或多種語言的對比。

百度百科-語料庫