當前位置:成語大全網 - 新華字典 - 短語結構規則

短語結構規則

1.介紹

從20世紀50年代的機器翻譯和人工智能研究開始,NLP(自然

語言處理(自然語言處理)已有半個世紀的歷史。存在

在這個過程中,學術界提出了許多重要的理論和方法,取得了豐富的成果。

。作者認為,在過去的二十年中,這壹領域具有裏程碑意義的貢獻如下:

(1)復雜的特征集和統壹的語法;(2)語言學研究中的詞匯主義;( 3)

語料庫方法與統計語言模型。這三項成果將繼續對語言學、計算語言學產生巨大影響。

和NLP研究產生了深遠的影響。為了更好地理解這些成就的意義,首先介紹和

兩個相關事實。

2.兩個事實

2.1事實之壹——短語結構語法無法有效描述自然語言。

在自然語言處理中,為了識別輸入句子的句法結構,首先需要

把句子中的單詞壹個壹個剪下來,然後查字典,給句子中的每個單詞壹個參考。

發適當的詞性;然後用句法規則把句子換行。

對其中包含的名詞短語、動詞短語、從句等句法成分逐壹進行識別。進入

並判斷每個短語的句法功能,如主語、謂語、賓語等。,及其語義角色,

最後得出句子的意義表達,比如邏輯語義表達。這是壹個句法分析

整個過程。

本文首先要提到的事實是:短語結構語法(短語結構)

語法(PSG)不能有效地描述自然語言。喬姆斯基語言中的PSG研究

理論在自然語言的句法描述中扮演著重要的角色,發揮著重要的作用。

。然而,它有壹些根本性的弱點,主要是因為它使用了詞類和短語。

類,所以不能有效地表示和解釋自然語言中的結構歧義。

問題看漢語中“V+N”的組合。如果我們把“打擊、委托、調查”等等。

這個詞被指定為動詞(v);把“實力、方法、盜版、甲方”這些詞作為名詞(

n),並認同“打擊力度”和“委托方式”是名詞短語(NP),“打擊”

盜版”和“委托方A”都是動詞短語(VP),所以會有如下兩個區別。

意義的句法規則:

(1)NP→VN

(2)動詞短語→動詞短語

換句話說,當計算機觀察到文本中“V+N”詞性的相鄰序列時,它仍然是

不確定他們是NP還是VP。我們稱這種歧義為“短語類”

型歧義”。例如:

公司正在招聘銷售人員。

地球在不斷地[改變v形n] VP。

再來看“n+v”的組合,也會產生短語類型模糊的規則。

是的,比如:

(3)NP→NV案例:市場調查;政治影響。

(4)S→NV例:物價上漲;情況穩定了。

其中符號s代表子句。

不僅如此,有時當機器觀察到“n+v”個詞類的相鄰序列時,甚至

無法判斷它們是否在同壹個詞組裏。也就是說“n+v”詞性序列

它可能構成名詞短語NP或從句S,也可能根本不在同壹個短語中。在...之後

這種歧義被稱為“短語邊界歧義”。這裏有兩個相關的例子:

中國的[鐵路N建V] NP發展很快。

【中國鐵路N】NP建V很快。

在前面的例子中,“鐵路建設”構成了壹個NP;在後壹個例子中,這兩個

兩個相鄰的單詞屬於兩個不同的短語。這足以說明基於壹個單壹的標記,

PSG不能完全描述自然語言中的句法歧義。讓我們來看看其中的壹些。

例子。

(5)NP→V N1德N2

(6)VP→V N1德N2

其中de代表結構助詞“的”。比如“VP削蘋果的刀”就是NP;但是

“剝蘋果皮”NP是VP。既有短語類型的歧義,也有短語的歧義。

邊界模糊。例如,兩個相鄰的單詞“peel V apple N”可能形成壹個單詞。

VP,也可能在兩個相鄰的短語中。

(7)NP→P N1德N2

(8)PP→P N1德N2

規則中的p和PP分別代表介詞和介詞短語。比如《PP的封印【到上海】

大象”是NP;而“for[上海學生] NP”是PP .鄰詞“對P滬N”

它可能形成壹個PP,也可能是兩個短語。

(9)NP→NumP N1德N2

其中NumP代表數量短語。雖然規則(9)代表壹個NP,但它可以單獨替換。

表二結構含義:

例如,五個[公司的雇員] NP。

(9b) [NUMP N1] NP Den2例如,[五家公司] NP員工。

(10)NP→N1 N2 N3

規則(10)也表示壹個NP,但是先組合“N1+N2”,或者“N2+N3”。

首先,會有兩種不同的結構方式和含義,即:

(10a)【n 1n 2】npn 3如:【現代漢語】NP詞典。

(10b) N1 [N2n3] NP比如新版【漢語大詞典】NP。

上面討論的第壹個事實表明:

由於缺乏約束力,單壹標記的PSG規則不能完全解決短語類型和

短語邊界模糊。在數學術語中,PSG規則是必要的,但還不夠。

。所以機器只是根據右邊的壹個詞性序列來判斷壹個規則是否短。

語言,或者任何短語,都有壹些不確定性。

利用復雜特征集和詞匯主義方法重構自然語言的語法體系是

全球語言學家在過去二十年中所做的最重要的努力。

2.2事實2-短語結構規則的有限覆蓋範圍

通過對大規模語料庫的考察,發現壹種語言中短語規則的分布符合

齊夫定律。Zipf是統計學家和語言學家。他提出,如

如果妳計算壹個語言單位(不管是字母還是單詞),把這個語言單位放進去

壹個語料庫的頻率記為F,按頻率降序排序。

每個單元格被分配壹個整數秩R。結果是R和F的乘積大約為

壹個常數。也就是

F…w│w│w)。

..p (w [,n] │ w...w │ w的條件概率,等等。不

很難看出為了預測單詞W │ W [,1]) II [,I = 3,…,n]P(w[,i]。

│w[,i-2]w[,-1]) (5)

統計語言模型的方法有點像天氣預報。概率參數的大規模估計

語料庫就像壹個地區多年積累的氣象記錄,用三元模型來造天

天氣預報就像是根據前兩天的天氣情況來預測當天的天氣。天氣預報什麽時候

但是,不可能百分百正確。這也是概率統計方法的壹個特點。

3.3.1語音識別

語音識別作為壹種替代計算機鍵盤輸入漢字的方式,越來越受到人們的信任。

各界人士的興趣。所謂的聽寫機就是這樣壹種商品據報道,中國的移動電

隨著手機和個人數字助理(PDA)的普及,電話用戶數量已經超過1億,尤其是

當這些便攜設備可以無線上網時,對用戶來說更為迫切。

我希望通過語音識別或手寫板代替鍵盤輸入短文本信息。

實際上,語音識別的任務可以看作是計算下列條件概率的最大值的問題:

W[*]=argmax[,W]P(W│語音信號)

=argmax[,W]P(語音信號│W)P(W)/

語音信號

=argmax[,W]P(語音信號│W)P(W) (6)

公式中的數學符號argmax[,w]表示對不同的候選詞序列W計算條件概率P (W)

│語音信號),使W[*]成為條件概率值最大的壹個。

詞序列,這是計算機選擇的識別結果。換句話說,通過公式(6)

通過計算,計算機找到了最適合當前輸入語音信號的單詞串W[1。

*]。

等式(6)的第二行是貝葉斯定律音譯的結果,因為條件概率p(

語音信號│W)更容易估計。公式的分母P(語音信號)對

給定的語音信號是常數,不影響最大值的計算,所以可以從公式中刪除。

除了。在第三行顯示的結果中,P(W)是上面提到的統計語言模型,即

壹般采用式(5)所示的三元模型;p(語音信號│W)稱為聲學模型。

至此,讀者可能已經明白,漢語拼音輸入法中的拼音-漢字轉換是任意的。

其實服務也是用同樣的方式實現的,兩者使用的中文語言模型是二進制的

或者三元模型)是同壹個模型。

目前市面上的聽寫機產品和微軟拼音輸入法(3.0版)都是用單詞的。

三元模型的實現幾乎完全不需要句法語義分析。因為根據可比較的評論,

測試結果表明,采用三元模型實現的拼音漢字轉換系統的錯誤率高於其他產品

減少50%左右。

3.3.2詞性標註

同義詞庫中大約有14%的單詞類型有壹個以上的詞性。在語料庫中,

占總字數30%左右的詞,詞類不止壹個。所以對於每壹個文本

壹個詞的詞性標註就是通過語境的約束來實現詞性歧義的消解。日歷

歷史上有過兩個自動詞性標註系統。壹種是使用上下文相關的規則。

然後叫做TAGGIT(1971),另壹個應用詞性的二元模型叫做CLAWS(

1987)(見Garside等人1989)。兩個系統分別用於評測654.38+0萬單詞的英語。

對不受限制的文本實施詞性標註。結果表明,爪子與統計語言模型

該系統的標註精度遠高於基於規則方法的TAGGIT系統。請看下表。

比:

系統名稱Taggit(1971)CLAWS(1987)標註號86 133方法3000 CSG規則隱馬爾可夫模型標註準確率77% 96%測試語料庫Brown LOB。

設c和w分別代表詞性標記的順序和詞的順序,那麽詞性標註的問題就可以看作是壹個方案。

計算下列條件概率的最大值:

C[*]=argmax[,C]P(C│W)

=argmax[,C]P(W│C)P(C)/P(W)

≈argmax[,C]ⅱ[,i=1,…,n]P(w[,i]│c[,i])P(c[,i]│c[,I

-1]) (7)

其中P(C│W)是已知輸入單詞序列W時,詞性標記序列C出現的條。

計件概率。數學符號argmax[,C]表示通過檢查語音標記序列C的不同候選部分

來尋找最大化條件概率的詞性標記序列C[*]。後者應該是

w的詞性標註結果。

公式的第二行是貝葉斯定律音譯的結果,因為分母P(W)給定了

w是常數,不影響最大值的計算,可以從公式中刪除。然後面向大眾

近似分析的類型。首先引入獨立性假設,認為任何壹個單詞w[,i]都是出來的。

現在的概率近似只與當前詞的詞性標記c[,i]有關,而與周圍(語境)有關。

詞類標記無關緊要。那麽詞匯概率可以計算如下:

P(W│C)≈ⅱ[,i=1,…,n]P(w[,i]│c[,i]) (8)

其次,采用二元假設,即近似考慮任意詞性標記c[,i]的出現概率。

只和它的前壹個詞性標記c[,i-1]有關。規則

P(C)≈P(c[,1])ⅱ[,i=2,…,n]P(c[,i]│c[,i-1]) (9)

P(c[,i]│c[,i-1])是詞性標記的轉移概率,也叫基於詞性的對偶。

模型。

這兩個概率參數可以通過帶有詞性標簽的語料庫來估計:

P(w[,i]│c[,i])≈count(w[,i],c[,i])/count(c[,i])(

10)

P(c[,i]│c[,i-1])≈count(c[,i-1]c[,i])/count(c[,i-1]

) (11)

根據文獻報道,使用統計語言模型方法,漢語和英語的詞性標註是正確的。

率可以達到96%左右(白帥虎1992)。

3.3.3介詞短語PP的附著歧義

在英語中,介詞短語是否附在前面的名詞或動詞後面是壹個句子。

法律分析中常見的結構歧義問題。下面的例子說明了如何用語料庫方法解決這個問題。

壹個問題,這種方法可以達到多高的正確率。

例如:皮埃爾·文肯,61歲,以董事身份加入董事會。

非執行董事。

設a = 1表示名詞附著,a = 0表示動詞附著,那麽就可以表達上例的PP附著問題。

用於:

(A=0,V =已加入,n 1 =板,P=as,N2 =控制器)

設V,N1,N2分別代表動詞短語、賓語短語和賓語短語的中心詞。

並且在帶有句法標簽的語料庫(也稱為樹庫)中統計後面的四元組的概率。

P[,r]:

P[,r]=(A=1│V=v,N1=n1,P=p,N2=n2) (10)

判斷輸入句子PP附著的算法如下:

如果p [,r] = (1 │ V,n1,P,n2)≥0.5,

則判斷PP附著在n1上,

否則,確定PP附著在v上。

柯林斯公司。Brooks(1995)實驗中使用的語料庫由賓夕法尼亞大學標註。

WSJ樹庫,包括:20,801個四元組的訓練集,測試。

嘗試設置3097個四邊形。他們對PP附件的自動測定精度的上限和下限提出了以下幾點。

分析:

全部視為名詞附加(即A ≡ 1) 59.0%

只考慮了介詞P最常見的附著的72.2%。

三位專家只根據中心四個字判斷了88.2%。

三位專家根據整句判斷93.2%。

很明顯,自動判斷準確率的下限是72.2%,因為機器不會比只考慮句子更好。

介詞p最常見的附著更差;上限是88.2%,因為機器比不上三。

專家根據這四個中心詞做出更好的判斷。

該論文報告說,在測試的3097個四邊形中,系統正確地判斷出四邊形。

是2606,所以平均準確率是84.1%。這與上述88.2%的上限不同

相比之下,應該說是相當不錯的成績了。

4.結論

語言學家的努力,無論是使用復雜的功能集和統壹的語法,還是詞匯主義。

方法都是在原有的所謂理性主義框架下做出的偉大貢獻。詞匯法

方法尤其值得稱贊,因為它不僅提出了更細粒度的語言知識表示方法。

式,同時也體現了壹種漸進式發展和語言知識積累的新思路。特別值得重視。

看來語料庫和統計方法在很多詞匯資源的開發中起到了很大的作用。

的作用。這也是經驗主義和理性主義融合的可喜開端。筆

研究者認為,語料庫方法和統計語言模型是目前自然語言處理技術的主流。

它們的實用價值已在許多應用系統中得到證明。統計語言模型研究,

特別是在結構化對象的統計建模方面,還有廣闊的發展空間。

參考資料:

阿爾茨,簡& amp威廉·邁斯(編輯。).1990.語料庫語言學:

理論與實踐〔C〕阿姆斯特丹:羅多皮。

柯林斯,m .和j .布魯克斯。1995.介詞短語

通過後退模型〔P〕的連接。在會議錄中

第三屆超大型語料庫研討會。馬薩諸塞州劍橋。

Garside,r .,G. Leech和G. Sampson(編輯).1989.這

英語的計算分析:基於語料庫的方法。

倫敦:朗曼。

羅得島州哈德森市1991。英語單詞語法〔M〕劍橋,

質量。:巴茲爾·布萊克威爾。

白帥虎,1992,漢語詞性自動標註系統研究[〔馬〕]。清華大學計算

機械科學與技術系碩士學位論文。

董振東和董強,1997,知網[J]。語言文字應用第三期。

於等,1998,《現代漢語語法信息詞典》[M]。北京:

清華大學出版社。