當前位置:成語大全網 - 成語詞典 - 語料是什麽意思

語料是什麽意思

年代才嶄露頭角的壹門交叉學科,它研究自然語言文本的采集、存儲、加工和統計分析,目的是憑借大規模語料庫提供的客觀翔實的語言證據來從事語言學研究和指導自然語言信息處理系統的開發。

語料庫顧名思義就是放語言材料的倉庫。現在人們談起語料庫,不言而喻是指存放在計算機裏的原始文本或經過加工後帶有語言學信息標註的語料文本。現在世界上已經有了不少規模較大的語料庫,有些是國家級的,有些由大學和詞典出版商聯合建設。另外,由於個人微機的迅猛發展和存貯數據的硬盤造價持續下降,研究者個人也開始建立適合於自己研究的小型語料庫。

語料庫語言學(英文corpuslinguistics)這個術語有兩層主要含義。壹是利用語料庫對語言的某個方面進行研究,即“語料庫語言學”不是壹個新學科的名稱,而僅僅反映了壹個新的研究手段。二是依據語料庫所反映出來的語言事實對現行語言學理論進行批判,提出新的觀點或理論。只有在這個意義上“語料庫語言學”才是壹個新學科的名稱。從現有文獻來看,屬於後壹類的研究還是極個別的。所以,嚴格地說,現在不能把語料庫語言學跟語言學的分支,如社會語言學、心理語言學、語用學等相提並論。

近年來,隨著我國經濟的發展,科研經費的增加,漢語語料庫的建設得到了開展。1999年我院把建立漢語語料庫列為院重大課題。目前語言所正在構建三個大規模的語料庫:現場即席話語語料庫,主要方言口語庫和現代漢語文本語料庫。在世界範圍內,我國的語料庫建設在規模上還趕不上歐洲的壹些發達國家,特別是英國。然而,在語料庫語言學的研究上,以及語料庫的實際運用上,我國已經進入世界前沿的行列。

20世紀語言研究的總特點可以用四個字概括———高度抽象。最近幾十年來,語言研究的高度抽象傾向已經失去主導地位。這主要緣於兩個方面的因素:壹是計算機技術,特別是基於計算機處理的多媒體技術的飛速發展;二是社會語言學、語用學、會話分析、人類語言學、計算語言學、人機對話研究、語音識別與合成等研究取得令人矚目的成就。先前難以抓住並進行有效處理的五花八門的實際語料,現在可以對其進行大規模地的、自動的或人機配合的處理。比如個人發音特征,先前認為這跟語言學毫無關系,現在成了偵破語音學的重要內容。偵破語音學家首先建立個人發音特征語料庫,這個語料庫可以用來鑒別嫌疑犯。概言之,當今的語言研究由先前的高度抽象逐步走向最具體的語言的實際活動,其中包括神經元的運動。比如神經語言學就是要揭開人類大腦神經是如何處理語言這個秘密的學科。

語料庫和語料庫語言學在當今語言研究由高度抽象轉向語言的實際使用這個過渡中起著十分重要的作用:壹是提供真實語料;二是提供統計數據;三是驗證現行的理論;四是構建新的理論。這些可以說是語料庫和語料庫語言學的實用價值。提供真實語料可以說是詞典編纂的生命線。現在流行的英語詞典幾乎全部是基於大規模語料庫編纂而成的。基於大規模語料庫的英語語法書也已經問世。通過大規模語料庫建立統計模型成為語言信息處理和加工的主流模式。先前基於規則的機器翻譯、語音合成與識別、文語轉換等如沒有大規模語料庫的數據支持,要取得好成果是不可能的。在理論建設上,基於英國國家語料庫英語口語庫的研究表明,基於真實英語口語語料的英語口語語法跟基於書面語的語法大不相同,甚至可以誇張地說,是不同的語法。

在歐洲,語料庫語言學已經成為語言學的主流分支。相信在註重語言實際的我國,語料庫語言學也將受到越來越多的研究者的重視,取得豐碩的成果。

參考資料:

中國社會科學院院報