短語結構規則

1. 引言

從50年代的機器翻譯和人工智能研究算起，NLP（Natural

Language Processing，自然語言處理）已有長達半個世紀的歷史。在

這個進程中，學術界曾提出許多重要的理論和方法，取得了豐富的成果

。筆者認為，近二十年在這壹領域中堪稱裏程碑式的貢獻有如下三個：

（1）復雜特征集和合壹語法；（2）語言學研究中的詞匯主義；（ 3）

語料庫方法和統計語言模型。這三個成果將繼續對語言學、計算語言學

和NLP研究產生深遠影響。為了更好地理解這些成果的意義，先介紹與

此相關的兩個事實。

2. 兩個事實

2.1 事實之壹——短語結構語法不能有效地描寫自然語言

在自然語言處理中，為了識別壹個輸入句子的句法結構，首先要把

句子中的詞壹個壹個地切分出來，然後去查詞典，給句子中的每個詞指

派壹個合適的詞性（part of speech）；之後再用句法規則把句子裏包

含的句法成分，如名詞短語、動詞短語、小句等，逐個地識別出來。進

而判斷每個短語的句法功能，如主語、謂語、賓語等，及其語義角色，

最終得到句子的意義表示，如邏輯語義表達式。這就是壹個句法分析的

全過程。

本文要提到的第壹個事實是：短語結構語法（Phrase Structure

Grammar，簡稱PSG）不能有效地描寫自然語言。PSG在Chomsky語言學理

論中占有重要地位，並且在自然語言的句法描寫中擔當舉足輕重的角色

。但是它有壹些根本性的弱點，主要表現為，它使用的是像詞類和短語

類那樣的單壹標記，因而不能有效地指明和解釋自然語言中的結構歧義

問題。請看漢語中“V＋N”組合。假如我們把“打擊、委托、調查”等

詞指派為動詞（V）；把“力度、方式、盜版、甲方”等詞視為名詞（

N），並同意“打擊力度”、“委托方式”是名詞短語（NP）， “打擊

盜版”、“委托甲方”是動詞短語（VP），那麽就會產生如下兩條有歧

義的句法規則：

（1）NP→VN

（2）VP→VN

換句話講，當計算機觀察到文本中相鄰出現的“V＋N”詞類序列時，仍

不能確定它們組成的究竟是NP還是VP。我們把這樣的歧義叫做“短語類

型歧義”。例如：

·該公司正在招聘〔銷售V人員N〕NP。

·地球在不斷〔改變V形狀N〕VP。

下面再來看“N＋V”的組合，也同樣會產生帶有短語類型歧義的規

則對，如：

（3）NP→NV 例：市場調查；政治影響。

（4）S→NV 例：價格攀升；局勢穩定。

其中標記S代表小句。

不僅如此，有時當機器觀察到相鄰出現的“N＋V”詞類序列時，甚

至不能判斷它們是不是在同壹個短語中。也就是說，“N＋V”詞類序列

可能組成名詞短語NP或小句S，也有可能根本就不在同壹個短語裏。後

面這種歧義稱為“短語邊界歧義”。下面是兩個相關的例句：

·中國的〔鐵路N建設V〕NP發展很快。

·〔中國的鐵路N〕NP建設V得很快。

前壹個例句中，“鐵路建設”組成壹個NP；而在後壹個例句中，這兩

個相鄰的詞卻分屬於兩個不同的短語。這足以說明，基於單壹標記的

PSG不能充分地描述自然語言中的句法歧義現象。下面再看壹些這樣的

例子。

（5）NP→V N1 de N2

（6）VP→V N1 de N2

其中de代表結構助詞“的”。例如，“〔削蘋果〕VP的刀”是NP；而

“削〔蘋果的皮〕NP”則是VP。這裏既有短語類型歧義，又有短語

邊界歧義。比如，“削V蘋果N”這兩個相鄰的詞，可能構成壹個

VP，也可能分處於兩個相鄰的短語中。

（7）NP→P N1 de N2

（8）PP→P N1 de N2

規則中P和PP分別表示介詞和介詞短語。例如，“〔對上海〕PP 的印

象”是NP；而“對〔上海的學生〕NP”則是PP。相鄰詞“對P上海N”

可能組成壹個PP，也可能分處於兩個短語中。

（9）NP→NumP N1 de N2

其中NumP表示數量短語。規則（9）雖然表示的是壹個NP，但可分別代

表兩種結構意義：

（9a）NumP〔N1 de N2〕NP 如：五個〔公司的職員〕NP

（9b）〔NumP N1〕NP de N2 如：〔五個公司〕NP的職員

（10）NP→N1 N2 N3

規則（10）表示的也是壹個NP，但“N1＋N2”先結合，還是“N2＋N3”

先結合，會出現兩種不同的結構方式和意義，即：

（10a）〔N1 N2〕NP N3 如：〔現代漢語〕NP詞典

（10b）N1〔N2 N3〕NP 如：新版〔漢語詞典〕NP

以上討論的第壹個事實說明：

·由於約束力不夠，單壹標記的PSG 規則不能充分消解短語類型和

短語邊界的歧義。用數學的語言講，PSG規則是必要的，卻不是充分的

。因此，機器僅僅根據規則右邊的壹個詞類序列來判斷它是不是壹個短

語，或者是什麽短語，都有某種不確定性。

·采用復雜特征集和詞匯主義方法來重建自然語言的語法系統，是

近二十年來全球語言學界對此作出的最重要的努力。

2.2 事實之二——短語結構規則的覆蓋有限

通過大規模語料的調查，人們發現壹種語言的短語規則的分布符合

齊夫率（Zipf's Law）。Zipf是壹個統計學家和語言學家。他提出，如

果對某個語言單位（不論是字母還是詞）進行統計，把這個語言單位在

壹個語料庫裏出現的頻度（frequency）記作F，而且根據頻度的降序對

每個單元指派壹個整數的階次（rank）R。結果發現R和F 的乘積近似為

壹個常數。即

F[*]R≈const（常數）

或者說，被觀察的語言單元的階次R與其頻度F成反比關系。在詞頻的統

計方面，齊夫律顯示，不管被考察的語料僅僅是壹本長篇小說，還是壹

個大規模的語料庫，最常出現的100 個詞的出現次數就會占到語料庫總

詞次數（tokens）的近壹半。假如語料庫的規模是100萬詞次，那麽其

中頻度最高的100個詞的累計出現次數大概是50萬詞次。如果整個語料

庫含有5萬詞型（types），那麽其中的壹半（也就是2.5 萬條左右）在

該語料庫中只出現過壹次。即使把語料庫的規模加大十倍，變成1000萬

詞次，統計規律大體不變。

有趣的是，80年代Sampson對英語語料庫中的PSG規則進行統計，發

現它們的分布同樣是扭曲的，大體表現為齊夫率（Aarts et al. 1990）

。也就是說，壹方面經常遇到的語法規則只有幾十條左右，它們的出現

頻度極高；另壹方面，規則庫中大約壹半左右的規則在語料庫中只出現

過壹次。隨著語料庫規模的擴大，新的規則仍不斷呈現。Chomsky 曾提

出過這樣的假設，認為對壹種自然語言來說，其語法規則的數目是有限

的，而據此生成的句子數目是無限的。但語料庫調查的結果不是這樣。

這個發現至少說明，單純依靠語言學家的語感來編寫語法規則不可能勝

任大規模真實文本處理的需求，我們必須尋找可以從語料庫中直接獲取

大規模語言知識的新方法。

幾十年來，NLP學界發表過大量燦爛成果，有詞法學、語法學、語

義學的，有句法分析算法的，還有許多著名的自然語言應用系統。而對

該領域影響最大的、裏程碑式的成果應數下面三個。

3. 三個裏程碑

3.1 裏程碑之壹：復雜特征集

復雜特征集（complex feature set）又叫多重屬性（multiple

features）描寫。在語言學裏，這種描寫方法最早出現在語音學中，後

來被Chomsky學派采用來擴展PSG的描寫能力。現在無論是在語言學界還

是計算語言學界，幾乎所有語法系統在詞匯層的描寫中均采用復雜特征

集，並利用這些屬性來強化句法規則的約束力。壹個復雜特征集F 包含

任意多個特征名f[,i]和特征值v[,i]對。其形式如：

F＝｛…，fi＝vi，…｝，i＝1，…，n

特征值v[,i]既可以是壹個簡單的數字或符號，也可以是另外壹個復雜

特征集。這種遞歸式的定義使復雜特征集獲得了強大的表現能力。如北

京大學俞士汶等（1998）開發的《現代漢語語法信息詞典詳解》，對壹

個動詞界定了約40項屬性描寫，對壹個名詞界定了約27項屬性描寫。

壹條含有詞匯和短語屬性約束的句法規則具有如下的壹般形式：

〈PSG規則〉：〈屬性約束〉

：〈屬性傳遞〉

壹般來說，PSG 規則包括右部（條件：符號序列的匹配模式）和左部（

動作：短語歸並結果）。詞語的“屬性約束”直接來自系統的詞庫，而

短語的“屬性約束”則是在自底向上的短語歸並過程中從其構成成分的

中心語（head）那裏繼承過來的。在Chomsky的理論中這叫做X-bar 理

論。X-bar代表某個詞類X所構成的、仍具有該詞類屬性的壹個成分。

如果X＝N，就是壹個具有名詞特性的N-bar。當壹條PSG 規則的右部匹

配成功，且“屬性約束”部分得到滿足，這條規則才能被執行。此時，

規則左部所命名的短語被生成，該短語的復雜特征集通過“屬性傳遞”

部分動態生成。

20世紀80年代末、90年代初學術界提出了壹系列新的語法，如廣義

短語結構語法（GPSG）、中心語驅動的短語結構語法（HPSG）、詞匯功

能語法（LFG）等等。這些形式語法其實都是在詞匯和短語的復雜特征

集描寫背景下產生的。合壹（unification ）算法則是針對復雜特征集

的運算而提出來的。“合壹”是實現屬性匹配和賦值的壹種算法，所以

上述這些新語法又統稱為“基於合壹的語法”。

3.2 裏程碑之二：詞匯主義

在NLP領域中，第二個裏程碑式的貢獻叫詞匯主義（lexicalism ）

。語言學家Hudson（1991）曾宣稱詞匯主義是當今語言學理論發展的頭

號傾向。其出現原因也同前面所觀察的兩個事實有關。詞匯主義方法不

僅提出了壹種顆粒度更細的語言知識表示形式，而且體現了壹種語言知

識遞增式開發和積累的新思路。

這裏首先要解釋壹下這樣壹個矛盾。壹方面，語言學界壹向認為，

不劃分詞類就無法講語法，如前面介紹的短語結構語法。也就是說，語

法“不可能”根據個別的詞來寫規則。但是另壹方面，人們近來又註意

到，任何歸類都會丟失個體的某些重要信息。所以從前文提到的第壹個

事實出發，要想強化語法約束能力，詞匯的描寫應當深入到比詞類更細

微的詞語本身上來。換句話講，語言學呼喚在詞匯層采用顆粒度更小的

描寫單元。從本質上來說，詞匯主義傾向反映了語言描寫的主體已經從

句法層轉移到詞匯層；這也就是所謂的“小語法，大詞庫”的思想。下

面我們來看與詞匯主義有關的壹些工作。

3.2.1 詞匯語法（Lexicon-grammar）

法國巴黎大學Gross教授在20世紀60 年代就創立了壹個研究中心叫

LADL，並提出詞匯語法的概念（）。

·自下而上地依據概念對漢語實詞進行了窮盡的分類。

·15，000個動詞被劃分成810類。

·定義了300個名詞類，100個形容詞類。

·全部概念用400個語義元語來定義。

知網的特點是既有WordNet 所描寫的同壹類詞之間的語義關系（如

：同義、反義、上下義、部分－整體等），又描寫了不同類詞之間的論

旨關系和語義角色。

3.2.5 MindNet

MindNet是微軟研究院NLP組設計的（/nlp/）。其設計思想是試圖用三元組（triple ）作為全部知識的

表示基元。壹個三元組由兩個節點和壹條連接邊組成。每個節點代表壹

個概念，連接這兩個概念節點的邊表示概念之間的語義依存關系。全部

三元組通過句法分析器自動獲取。具體來說，就是通過對兩部英語詞典

（Longman Dictionary of Contemporary English和American Heritage

Dictionary）及壹部百科全書（Encarta）中的全部句子進行分析，獲

得每個句子的邏輯語義表示（logical form，簡稱LF）。而LF本來就是

由三元組構成的，如（W1，V-Obj，W2）表示：W1是壹個動詞， W2是其

賓語中的中心詞，因此W2從屬於W1，它們之間的關系是V-Obj。比如（

play，V-Obj，basketball）便是壹個具體的三元組。又如（W1，H-Mod

，W2），W1代表壹個偏正短語中的中心詞（head word），W2 是其修飾

語（modifier），因此W2從屬於W1，它們之間的關系是H-Mod。

這種資源完全是自動做出來的，所得的三元組不可能沒有錯誤。但

是那些出現頻度很高的三元組壹般來說是正確的。MindNet 已經應用到

語法檢查、句法結構排歧、詞義排歧、機器翻譯等許多場合。

3.3 裏程碑之三：統計語言模型

第三個貢獻就是語料庫方法，或者叫做統計語言模型。如果用變量

W 代表壹個文本中順序排列的n個詞，即W＝w[,1]w[,2]…w[,n]，則統

計語言模型的任務是給出任意壹個詞序列W在文本中出現的概率P（W ）

。利用概率的乘積公式，P（W）可展開為：

P（W）＝P（w[,1]）P（w[,2]│w[,1]）P（w[,3]│w[,1]w[,2]）.

..P（w[,n]│w[,1]w[,2]…w[,n-1]）（1）

式中P（w[,1]）表示第壹個詞w[,1]的出現概率，P（w[,2]│w[,1]）表

示在w[,1]出現的情況下第二個詞w[,2]出現的條件概率，依此類推。不

難看出，為了預測詞w[,n]的出現概率，必須已知它前面所有詞的出現

概率。從計算上來看，這太復雜了。如果近似認為任意壹個詞w[,i] 的

出現概率只同它緊鄰的前壹個詞有關，那麽計算就得以大大簡化。這就

是所謂的二元模型（bigram），由（1）式得：

P（W）≈P（w[,1]）Ⅱ[,i=2，…，n]P（w[,i]│w[,i-1]）（2）

式中Ⅱ[,i=2，…，n]P（w[,i]│w[,i-1]）表示多個概率的連乘。

需要著重指出的是：這些概率參數都可以通過大規模語料庫來估值

。比如二元概率

P（w[,i]│w[,i-1]）≈count（w[,i-1]w[,i]）／count（w[,i- 1

]）（3）

式中count（…）表示壹個特定詞序列在整個語料庫中出現的累計次數。

若語料庫的總詞次數為N，則任意詞w[,i]在該語料庫中的出現概率可估

計如下：

P（w[,1]）≈count（w[,i]）／N

同理，如果近似認為任意詞w[,i]的出現只同它緊鄰的前兩個詞有關，

就得到壹個三元模型（trigram）：

P（W）≈P（w[,1]）P（w[,2]│w[,1]）Ⅱ[,i=3，…，n]P（w[,i]

│w[,i-2]w[,-1]）（5）

統計語言模型的方法有點像天氣預報。用來估計概率參數的大規模

語料庫好比是壹個地區歷年積累起來的氣象記錄，而用三元模型來做天

氣預報，就像是根據前兩天的天氣情況來預測當天的天氣。天氣預報當

然不可能百分之百正確。這也算是概率統計方法的壹個特點。

3.3.1 語音識別

語音識別作為計算機漢字鍵盤輸入的壹種替代方式，越來越受到信

息界人士的青睞。所謂聽寫機就是這樣的商品。據報道，中國的移動電

話用戶已超過壹億，隨著移動電話和個人數字助理（PDA）的普及，尤

其是當這些隨身攜帶的器件都可以無線上網的時候，廣大用戶更迫切期

望通過語音識別或手寫板而不是小鍵盤來輸入簡短的文字信息。

其實，語音識別任務可視為計算以下條件概率的極大值問題：

W[*]＝argmax[,W]P（W│speech signal）

＝argmax[,W]P（speech signal│W）P（W）／

P（speech signal）

＝argmax[,W]P（speech signal│W）P（W）（6）

式中數學符號argmax[,w]表示對不同的候選詞序列W計算條件概率P （W

│speech signal）的值，從而使W[*] 成為其中條件概率值最大的那個

詞序列，這也就是計算機選定的識別結果。換句話講，通過式（6 ）的

計算，計算機找到了最適合當前輸入語音信號speech signal的詞串W[

*]。

式（6）第二行是利用貝葉斯定律轉寫的結果，因為條件概率P （

speech signal│W）比較容易估值。公式的分母P（speech signal）對

給定的語音信號是壹個常數，不影響極大值的計算，故可以從公式中刪

除。在第三行所示的結果中，P（W）就是前面所講的統計語言模型，壹

般采用式（5）所示的三元模型；P（speech signal│W）叫做聲學模型

到此，讀者可能已經明白，漢語拼音輸入法中的拼音—漢字轉換任

務其實也是用同樣方法實現的，而且兩者所用的漢語語言模型（即二元

或三元模型）是同壹個模型。

目前市場上的聽寫機產品和微軟拼音輸入法（3.0 版）都是用詞的

三元模型實現的，幾乎完全不用句法—語義分析手段。因為據可比的評

測結果，用三元模型實現的拼音－漢字轉換系統，其出錯率比其它產品

減少約50％。

3.3.2 詞性標註

壹個詞庫中大約14％的詞型具有不止壹個詞性。而在壹個語料庫中

，占總詞次數約30％的詞具有不止壹個詞性。所以對壹個文本中的每壹

個詞進行詞性標註，就是通過上下文的約束，實現詞性歧義的消解。歷

史上曾經先後出現過兩個自動詞性標註系統。壹個采用上下文相關的規

則，叫做TAGGIT（1971），另壹個應用詞類的二元模型，叫做CLAWS （

1987）（見Garside et al.1989）。兩個系統都分別對100 萬詞次的英

語非受限文本實施了詞性標註。結果顯示，采用統計語言模型的CLAWS

系統的標註正確率大大高於基於規則方法的TAGGIT系統。請看下表的對

比：

系統名 TAGGIT(1971) CLAWS(1987)標記數 86 133方法 3000條CSG規則隱馬爾科夫模型標註精度 77% 96%測試語料布朗 LOB

令C和W分別代表詞類標記序列和詞序列，則詞性標註問題可視為計

算以下條件概率的極大值：

C[*]＝argmax[,C]P（C│W）

＝argmax[,C]P（W│C）P（C）／P（W）

≈argmax[,C]Ⅱ[,i=1，…，n]P（w[,i]│c[,i]）P（c[,i]│c[,i

-1]）（7）

式中P（C│W）是已知輸入詞序列W的情況下，出現詞類標記序列C 的條

件概率。數學符號argmax[,C] 表示通過考察不同的候選詞類標記序列C

，來尋找使條件概率取最大值的那個詞類標記序列C[*]。後者應當就是

對W的詞性標註結果。

公式第二行是利用貝葉斯定律轉寫的結果，由於分母P（W）對給定

的W是壹個常數，不影響極大值的計算，可以從公式中刪除。接著對公

式進行近似分析。首先，引入獨立性假設，認為任意壹個詞w[,i] 的出

現概率近似只同當前詞的詞類標記c[,i]有關，而與周圍（上下文）的

詞類標記無關。於是詞匯概率可計算如下：

P（W│C）≈Ⅱ[,i=1，…，n]P（w[,i]│c[,i]）（8）

其次，采用二元假設，即近似認為任意壹個詞類標記c[,i] 的出現概率

只同它緊鄰的前壹個詞類標記c[,i-1]有關。則

P（C）≈P（c[,1]）Ⅱ[,i=2，…，n]P（c[,i]│c[,i-1]）（9）

P（c[,i]│c[,i-1]）是詞類標記的轉移概率，也叫做基於詞類的二元

模型。

上述這兩個概率參數都可以通過帶詞性標記的語料庫來分別估計：

P（w[,i]│c[,i]）≈count（w[,i]，c[,i]）／count（c[,i]）（

10）

P（c[,i]│c[,i-1]）≈count（c[,i-1]c[,i]）／count（c[,i-1]

）（11）

據文獻報道，采用統計語言模型方法，漢語和英語的詞性標註正確

率都可以達到96％左右（白拴虎1992）。

3.3.3 介詞短語PP的依附歧義

在英語中，介詞短語究竟依附於前面的名詞還是前面的動詞，是句

法分析中壹種常見的結構歧義問題。下例表明怎樣用語料庫方法解決這

個問題，以及這種方法究竟能達到多高的正確率。

例句：Pierre Vinken, 61 years old, joined the board as a

nonexecutive director.

令A＝1表示名詞依附，A＝0為動詞依附，則上述例句的PP依附問題可表

為：

（A＝0，V＝joined，N1＝board，P＝as，N2＝director）

令V，N1，N2分別代表句中動詞短語、賓語短語、介賓短語的中心詞，

並在壹個帶有句法標註的語料庫（又稱樹庫）中統計如下四元組的概率

P[,r]：

P[,r]＝（A＝1│V＝v，N1＝n1，P＝p，N2＝n2）（10）

對輸入句子進行PP依附判斷的算法如下：

若P[,r]＝（1│v，n1，p，n2）≥0.5，

則判定PP依附於n1，

否則判定PP依附於v。

Collins & Brooks（1995）實驗使用的語料庫是賓夕法尼亞大學標註的

《華爾街日報》（WSJ）樹庫，其中包括：訓練集20，801個四元組，測

試集3，097個四元組。他們對PP依附自動判定精度的上下限作了如下分

析：

壹律視為名詞依附（即A≡1） 59.0％

只考慮介詞p的最常見依附 72.2％

三位專家只根據四個中心詞判斷 88.2％

三位專家根據全句判斷 93.2％

很明顯，自動判斷精確率的下限是72.2％，因為機器不會比只考慮句中

介詞p的最常見依附做得更差；上限是88.2％，因為機器不可能比三位

專家根據四個中心詞作出的判斷更高明。

論文報告，在被測試的3，097個四元組中，系統正確判斷的四元組

為2，606個，因此平均精確率為84.1％。這與上面提到的上限值88.2％

相比，應該說是相當不錯的結果。

4. 結論

語言學家的努力，不論是用復雜特征集和合壹語法，還是詞匯主義

方法，都是在原先所謂的理性主義框架下作出的重大貢獻。詞匯主義方

法特別值得推崇，因為它不僅提出了壹種顆粒度更細的語言知識表示形

式，而且體現了壹種語言知識遞增式開發和積累的新思路。尤其值得重

視的是在眾多詞匯資源的開發過程中，語料庫和統計學方法發揮了很大

的作用。這也是經驗主義方法和理性主義方法相互融合的可喜開端。筆

者相信，語料庫方法和統計語言模型是當前自然語言處理技術的主流，

它們的實用價值已在很多應用系統中得到證實。統計語言模型的研究，

尤其在結構化對象的統計建模方面，仍有廣闊的發展空間。

參考文獻:

Aarts, Jan & Willen Meijs (eds.). 1990. Corpus Linguistics:

Theory and Practice〔C〕. Amsterdam: Rodopi.

Collins, M. and J. Brooks. 1995. Preposition phrase

attachment through a backed-off model〔P〕. In Proceedings of the

3rd Workshop of Very Large Corpora. Cambridge, Mass.

Garside, R., G. Leech and G. Sampson, (eds.). 1989. The

Computational Analysis of English: A Corpus-Based Approach〔C〕.

London: Longman.

Hudson, R. A. 1991. English Word Grammar〔M〕. Cambridge,

Mass.: Basil Blackwell.

白拴虎，1992，漢語詞性自動標註系統研究〔MA〕。清華大學計算

機科學與技術系碩士學位論文。

董振東、董強，1997，知網〔J〕。《語言文字應用》第3期。

俞士汶等，1998，《現代漢語語法信息詞典詳解》〔M〕。北京：

清華大學出版社。