中文——作為壹個民族的母語,中文是當今世界流行語言體系裏最大的壹個分支。始創於公元前黃帝在世的時代,成就於公元二十世紀後期。是壹種發源最早而成熟最晚的壹個語言體系。是東方文明的壹種標誌與成果,是人類用來精確命名與定義萬事萬物的壹種重要信息載體。體系包括幾千個常用單字和上萬個字詞成語,是文明社會不可缺少的重要組成。 自壹名京人編輯
從20世紀50年代初機器翻譯課題被提出算起,自然語言處理(NLP)的研發歷史至少也有50年了。90年代初,NLP的研究目標開始從小規模受限語言處理走向大規模真實文本處理。把這個新目標正式列入大會主題的是1990年在赫爾辛基舉行的“第13屆國際計算語言學大會”。那些只有幾百個詞條和數十條語法規則的受限語言分析系統,通常被業內人士戲稱為“玩具”,不可能有什麽實用價值。政府、企業和廣大計算機用戶期盼的是像漢字輸入、語音聽寫機、文-語轉換(TTS)、搜索引擎、信息抽取(IE)、信息安全和機器翻譯(MT)那樣的、有能力處理大規模真實文本的實用化系統。
正是基於對這個裏程碑式轉折的關註,筆者在1993年就列舉了四種大規模真實文本處理的應用前景:新壹代信息檢索系統;按客戶要求編輯的報紙;信息抽取,即把非結構化的文本轉化為結構化的信息庫;大規模語料庫的自動標註。值得慶幸的是,今天所有這四個方向都有了實用化或商品化的成果。
盡管全世界都把大規模真實文本處理看做是NLP的壹個戰略目標,但這不等於說受限領域的機器翻譯、語音對話、電話翻譯和其他壹些基於深層理解的自然語言分析技術或理論研究,就不應當再搞了。目標和任務的多樣化是學術界繁榮昌盛的壹個標誌。問題是要考慮清楚NLP的主戰場在哪裏,我們的主力應當部署在哪裏。
中文難辦嗎?
談到中文信息處理所面臨的重大應用課題,如企業和廣大計算機用戶所期盼的漢字輸入、語音識別等,大家似乎並沒有什麽分歧。但是當討論深入到實現這些課題的方法或技術路線時,分歧馬上就涇渭分明了。第壹種意見認為,中文信息處理的本質是漢語理解,也就是要對漢語真實文本實施句法-語義分析。持這種意見的學者主張,以往在中文信息處理中使用的概率統計方法已經走到了盡頭,為了在理解或語言層面上解決中文信息處理問題,就必須另辟蹊徑,這條蹊徑便是語義學。據說這是因為漢語不同於西方語言,漢語的句法相當靈活,漢語本質上是壹種意合語言等。
與上述意見相對立的觀點是:前面提到的絕大多數應用系統(MT除外)其實都是在沒有句法-語義分析的情況下實現的,因此談不上“理解”。 如果壹定要說“理解”,那麽只是用圖靈實驗來證實的所謂“理解”。
上述雙方爭論的焦點是方法,但目標和方法通常是密不可分的。如果我們同意把大規模真實文本處理作為NLP的戰略目標,那麽實現這壹目標的理論和方法也必然要跟著變化。無獨有偶,1992年在蒙特利爾召開的“第四屆機器翻譯的理論和方法國際會議(TMI-92)”宣布大會的主題是“機器翻譯中的經驗主義和理性主義方法”。這就是公開承認,在傳統的基於語言學和人工智能方法(即理性主義)的NLP技術以外,還有壹種基於語料庫和統計語言模型的新方法(即經驗主義)正在迅速崛起。
NLP的戰略目標和相應的語料庫方法都是從國際學術舞臺的大視野中獲得的,中文信息處理自然也不例外。那種認為中文文本處理特別困難,以至要另辟蹊徑的觀點,缺少有說服力的事實根據。拿信息檢索(IR)來說,它的任務是從壹個大規模的文檔庫中尋找與用戶的查詢相關的文檔。怎樣表示文檔和查詢的內容,以及如何度量文檔和查詢之間的相關程度,就成為IR技術需要解決的兩個基本問題。召回率和精確率則是評價壹個IR系統的兩個主要指標。由於文檔和查詢都是用自然語言表述的,這個任務可以用來說明中文和西方語言所面臨的問題和所采用的方法其實是十分相似的。壹般來說,各文種的IR系統都用文檔和查詢中的詞頻(tf)和倒文檔頻率(idf)來表示文檔和查詢的內容,所以本質上是壹種統計方法