漢語——作為壹個民族的母語,漢語是當今世界流行語言體系中最大的分支。它創建於公元前黃帝在世時,成就於20世紀末。它是壹個起源最早、成熟最晚的語言系統。它是東方文明的象征和成就,是人類用來準確命名和定義萬物的重要信息載體。該系統包括成千上萬的常用詞和成千上萬的詞語成語,是文明社會不可或缺的壹部分。來自北京的壹位編輯
自20世紀50年代初提出機器翻譯的話題以來,自然語言處理的研究和發展歷史至少已有50年。90年代初,NLP的研究目標開始從小規模的受限語言處理轉向大規模的真實文本處理。正是1990年在赫爾辛基召開的13計算語言學國際會議將這壹新目標正式納入會議主題。那些只有幾百個詞條,幾十個語法規則的有限的語言分析系統,通常被業內人士戲稱為“玩具”,它們不可能有什麽實用價值。政府、企業和計算機用戶期待的是壹個能夠處理大規模真實文本的實用系統,如漢字輸入、語音聽寫機、文語轉換(TTS)、搜索引擎、信息抽取(IE)、信息安全和機器翻譯(MT)。
基於對這壹裏程碑的關註,作者在1993中列舉了大規模真實文本處理的四個應用前景:新壹代信息檢索系統;根據客戶要求編輯的報紙;信息抽取,即將非結構化文本轉化為結構化信息庫;大規模語料庫的自動標註。幸運的是,這四個方向在今天都取得了實用或商業上的成果。
雖然全世界都把大規模真實文本處理作為NLP的戰略目標,但這並不意味著要停止機器翻譯、語音對話、電話翻譯等自然語言分析技術或基於有限領域深度理解的理論研究。目標和任務的多樣化是學術圈繁榮的標誌。問題是要考慮清楚NLP的主戰場在哪裏,我們的主力應該部署在哪裏。
語文難嗎?
說到企業和計算機用戶所期待的漢字輸入、語音識別等中文信息處理所面臨的重大應用課題,大家似乎沒有什麽分歧。但是,當討論深入到實現這些話題的方法或技術路線時,分歧就會立刻清晰界定。第壹種觀點認為,中文信息處理的本質是中文理解,即對中文真實文本進行句法語義分析。持這種觀點的學者認為,過去在中文信息處理中使用的概率統計方法已經走到了盡頭。要想在理解或語言層面解決中文信息處理的問題,必須另辟蹊徑,這就是語義。據說這是因為漢語不同於西方語言,句法相當靈活,本質上是壹種意合語言。
與上述觀點相反,上面提到的大部分應用系統(MT除外)實際上是在沒有進行句法語義分析的情況下實現的,所以不是“理解”。如果壹定要說“理解”,那也只是圖靈實驗證實的所謂“理解”。
上述雙方爭執的焦點是方法,但目標和方法通常是分不開的。如果我們同意將大規模真實文本處理作為NLP的戰略目標,那麽實現這壹目標的理論和方法必然會發生相應的變化。無獨有偶,1992年在蒙特利爾召開的第四屆機器翻譯理論與方法國際會議(TMI-92)宣布會議主題為“機器翻譯中的經驗主義與理性主義”。這是壹個公開的承認,除了基於語言學和人工智能(理性主義)的傳統NLP技術之外,還有壹種基於語料庫和統計語言模型(經驗主義)的新方法正在迅速興起。
NLP的戰略目標和相應的語料庫方法都是從國際學術舞臺上獲取的,中文信息處理也不例外。中文文本處理如此困難,需要另辟蹊徑的觀點缺乏令人信服的事實依據。以信息檢索(IR)為例,它的任務是從大規模的文檔庫中找到與用戶查詢相關的文檔。如何表達文檔和查詢的內容,如何度量文檔和查詢的相關程度,已經成為信息檢索技術需要解決的兩個基本問題。查全率和查準率是評價信息檢索系統的兩個主要指標。由於文檔和查詢是用自然語言表達的,所以這個任務可以用來說明中西方語言面臨的問題其實非常相似。壹般來說,各種語言的IR系統都是用文檔和查詢中的詞頻(tf)和倒排文檔頻(idf)來表示文檔和查詢的內容,所以本質上是壹種統計方法。
世界文本檢索大會TREC(和W = w1...wn分別代表詞性標註序列和詞序列,所以詞性標註任務可以看作是在詞序列w已知的情況下,計算如下條件概率最大值的問題:
C*= argmaxC P(C|W)
= argmaxC P(W|C)P(C) / P(W)
≈ argmaxC ∏i i=1,...,nP(wi|ci)P(ci|ci-1)
P(C|W)表示當輸入單詞序列W已知時,詞性標記序列C出現的條件概率。數學符號argmaxC表示通過考察不同的候選詞類標記序列C,找到使條件概率P(C|W)最大化的詞序列W*,後者應該是標註W的結果。
公式的第二行是使用貝葉斯定律的結果。由於分母P(W)對於給定的W是常數,不影響最大值的計算,所以可以從公式中刪除。然後近似公式。首先引入獨立性假設,認為詞序列中任意詞wi的出現概率是近似的,只與當前詞的詞性標記ci有關,而與周圍(上下文)詞性標記無關。即詞匯概率
P(W|C) ≈ ∏i i=1,...,nP(wi|ci)
其次,采用二元假設,即近似認為任意詞性標記ci的出現概率只與其緊鄰的前壹詞性標記ci-1有關。因此,有:
p(C)≈I I =,...,n P(ci|ci-1)
P(ci|ci-1)是詞性標記的轉移概率,也叫二元模型。
這兩個概率參數也可以通過帶有詞性標簽的語料庫來估計:
P(wi|ci) ≈計數(wi,ci) /計數(ci)
P(ci|ci-1) ≈計數(ci-1ci) /計數(ci-1)
對了,國內外學者用詞性標註的二元或三元模型實現的中英文詞性自動標註,已經達到了95%左右的標註準確率。
為什麽評價是唯壹的標準?
有評價才有認同。判斷壹種方法優劣的唯壹標準是可比較的評價,而不是設計者自己設計的“自我評價”,更不是人的直覺或某人的“先見之明”。近年來,在語言信息處理領域,通過評價推動科技進步的例子很多。國家“863計劃”智能計算機專家組對語音識別、漢字(印刷體和手寫體)識別、自動文本分割、自動詞性標註、自動文摘、機器翻譯的翻譯質量等課題進行了多次具有統壹測試數據和統壹評分方法的國家級評測,對這些領域的技術進步起到了非常積極的推動作用。
在國際上,由美國國防部發起的與語言信息處理相關的兩個程序TIPSTER和TIDES被稱為“評估驅動程序”。他們不僅提供大規模的訓練語料庫和測試語料庫,還為信息檢索(TREC)、信息抽取(MUC)、命名實體識別(MET-2)等研究課題提供統壹的評分方法和評測軟件,以保證各個研究小組能夠在公平公開的條件下討論研究方法,促進科技進步。TREC、MUC、MET-2等會議組織的多語言評測活動也有力地表明,在其他語言中采用並被證明有效的方法同樣適用於中文,不同語言的應用系統的性能指標大致相同。當然,每種語言都有自己的個性,但不應該用這些個性來否定語言的共性,在缺乏事實的情況下做出錯誤的判斷。
為了促進中文信息處理的發展,讓我們拿起評測這個武器,紮紮實實地研究它的適用技術,不要想當然。建議政府科研部門在制定項目計劃時,至少撥出壹個項目總經費的10%來資助該項目的評估。沒有統壹評價的研究成果,終究不是完全可信的。