從20世紀50年代的機器翻譯和人工智能研究開始,NLP(自然
語言處理(自然語言處理)已有半個世紀的歷史。存在
在這個過程中,學術界提出了許多重要的理論和方法,取得了豐富的成果。
。作者認為,在過去的二十年中,這壹領域具有裏程碑意義的貢獻如下:
(1)復雜的特征集和統壹的語法;(2)語言學研究中的詞匯主義;( 3)
語料庫方法與統計語言模型。這三項成果將繼續對語言學、計算語言學產生巨大影響。
和NLP研究產生了深遠的影響。為了更好地理解這些成就的意義,首先介紹和
兩個相關事實。
2.兩個事實
2.1事實之壹——短語結構語法無法有效描述自然語言。
在自然語言處理中,為了識別輸入句子的句法結構,首先需要
把句子中的單詞壹個壹個剪下來,然後查字典,給句子中的每個單詞壹個參考。
發適當的詞性;然後用句法規則把句子換行。
對其中包含的名詞短語、動詞短語、從句等句法成分逐壹進行識別。進入
並判斷每個短語的句法功能,如主語、謂語、賓語等。,及其語義角色,
最後得出句子的意義表達,比如邏輯語義表達。這是壹個句法分析
整個過程。
本文首先要提到的事實是:短語結構語法(短語結構)
語法(PSG)不能有效地描述自然語言。喬姆斯基語言中的PSG研究
理論在自然語言的句法描述中扮演著重要的角色,發揮著重要的作用。
。然而,它有壹些根本性的弱點,主要是因為它使用了詞類和短語。
類,所以不能有效地表示和解釋自然語言中的結構歧義。
問題看漢語中“V+N”的組合。如果我們把“打擊、委托、調查”等等。
這個詞被指定為動詞(v);把“實力、方法、盜版、甲方”這些詞作為名詞(
n),並認同“打擊力度”和“委托方式”是名詞短語(NP),“打擊”
盜版”和“委托方A”都是動詞短語(VP),所以會有如下兩個區別。
意義的句法規則:
(1)NP→VN
(2)動詞短語→動詞短語
換句話說,當計算機觀察到文本中“V+N”詞性的相鄰序列時,它仍然是
不確定他們是NP還是VP。我們稱這種歧義為“短語類”
型歧義”。例如:
公司正在招聘銷售人員。
地球在不斷地[改變v形n] VP。
再來看“n+v”的組合,也會產生短語類型模糊的規則。
是的,比如:
(3)NP→NV案例:市場調查;政治影響。
(4)S→NV例:物價上漲;情況穩定了。
其中符號s代表子句。
不僅如此,有時當機器觀察到“n+v”個詞類的相鄰序列時,甚至
無法判斷它們是否在同壹個詞組裏。也就是說“n+v”詞性序列
它可能構成名詞短語NP或從句S,也可能根本不在同壹個短語中。在...之後
這種歧義被稱為“短語邊界歧義”。這裏有兩個相關的例子:
中國的[鐵路N建V] NP發展很快。
【中國鐵路N】NP建V很快。
在前面的例子中,“鐵路建設”構成了壹個NP;在後壹個例子中,這兩個
兩個相鄰的單詞屬於兩個不同的短語。這足以說明基於壹個單壹的標記,
PSG不能完全描述自然語言中的句法歧義。讓我們來看看其中的壹些。
例子。
(5)NP→V N1德N2
(6)VP→V N1德N2
其中de代表結構助詞“的”。比如“VP削蘋果的刀”就是NP;但是
“剝蘋果皮”NP是VP。既有短語類型的歧義,也有短語的歧義。
邊界模糊。例如,兩個相鄰的單詞“peel V apple N”可能形成壹個單詞。
VP,也可能在兩個相鄰的短語中。
(7)NP→P N1德N2
(8)PP→P N1德N2
規則中的p和PP分別代表介詞和介詞短語。比如《PP的封印【到上海】
大象”是NP;而“for[上海學生] NP”是PP .鄰詞“對P滬N”
它可能形成壹個PP,也可能是兩個短語。
(9)NP→NumP N1德N2
其中NumP代表數量短語。雖然規則(9)代表壹個NP,但它可以單獨替換。
表二結構含義:
例如,五個[公司的雇員] NP。
(9b) [NUMP N1] NP Den2例如,[五家公司] NP員工。
(10)NP→N1 N2 N3
規則(10)也表示壹個NP,但是先組合“N1+N2”,或者“N2+N3”。
首先,會有兩種不同的結構方式和含義,即:
(10a)【n 1n 2】npn 3如:【現代漢語】NP詞典。
(10b) N1 [N2n3] NP比如新版【漢語大詞典】NP。
上面討論的第壹個事實表明:
由於缺乏約束力,單壹標記的PSG規則不能完全解決短語類型和
短語邊界模糊。在數學術語中,PSG規則是必要的,但還不夠。
。所以機器只是根據右邊的壹個詞性序列來判斷壹個規則是否短。
語言,或者任何短語,都有壹些不確定性。
利用復雜特征集和詞匯主義方法重構自然語言的語法體系是
全球語言學家在過去二十年中所做的最重要的努力。
2.2事實2-短語結構規則的有限覆蓋範圍
通過對大規模語料庫的考察,發現壹種語言中短語規則的分布符合
齊夫定律。Zipf是統計學家和語言學家。他提出,如
如果妳計算壹個語言單位(不管是字母還是單詞),把這個語言單位放進去
壹個語料庫的頻率記為F,按頻率降序排序。
每個單元格被分配壹個整數秩R。結果是R和F的乘積大約為
壹個常數。也就是
F…w│w│w)。
..p (w [,n] │ w...w │ w的條件概率,等等。不
很難看出為了預測單詞W │ W [,1]) II [,I = 3,…,n]P(w[,i]。
│w[,i-2]w[,-1]) (5)
統計語言模型的方法有點像天氣預報。概率參數的大規模估計
語料庫就像壹個地區多年積累的氣象記錄,用三元模型來造天
天氣預報就像是根據前兩天的天氣情況來預測當天的天氣。天氣預報什麽時候
但是,不可能百分百正確。這也是概率統計方法的壹個特點。
3.3.1語音識別
語音識別作為壹種替代計算機鍵盤輸入漢字的方式,越來越受到人們的信任。
各界人士的興趣。所謂的聽寫機就是這樣壹種商品據報道,中國的移動電
隨著手機和個人數字助理(PDA)的普及,電話用戶數量已經超過1億,尤其是
當這些便攜設備可以無線上網時,對用戶來說更為迫切。
我希望通過語音識別或手寫板代替鍵盤輸入短文本信息。
實際上,語音識別的任務可以看作是計算下列條件概率的最大值的問題:
W[*]=argmax[,W]P(W│語音信號)
=argmax[,W]P(語音信號│W)P(W)/
語音信號
=argmax[,W]P(語音信號│W)P(W) (6)
公式中的數學符號argmax[,w]表示對不同的候選詞序列W計算條件概率P (W)
│語音信號),使W[*]成為條件概率值最大的壹個。
詞序列,這是計算機選擇的識別結果。換句話說,通過公式(6)
通過計算,計算機找到了最適合當前輸入語音信號的單詞串W[1。
*]。
等式(6)的第二行是貝葉斯定律音譯的結果,因為條件概率p(
語音信號│W)更容易估計。公式的分母P(語音信號)對
給定的語音信號是常數,不影響最大值的計算,所以可以從公式中刪除。
除了。在第三行顯示的結果中,P(W)是上面提到的統計語言模型,即
壹般采用式(5)所示的三元模型;p(語音信號│W)稱為聲學模型。
至此,讀者可能已經明白,漢語拼音輸入法中的拼音-漢字轉換是任意的。
其實服務也是用同樣的方式實現的,兩者使用的中文語言模型是二進制的
或者三元模型)是同壹個模型。
目前市面上的聽寫機產品和微軟拼音輸入法(3.0版)都是用單詞的。
三元模型的實現幾乎完全不需要句法語義分析。因為根據可比較的評論,
測試結果表明,采用三元模型實現的拼音漢字轉換系統的錯誤率高於其他產品
減少50%左右。
3.3.2詞性標註
同義詞庫中大約有14%的單詞類型有壹個以上的詞性。在語料庫中,
占總字數30%左右的詞,詞類不止壹個。所以對於每壹個文本
壹個詞的詞性標註就是通過語境的約束來實現詞性歧義的消解。日歷
歷史上有過兩個自動詞性標註系統。壹種是使用上下文相關的規則。
然後叫做TAGGIT(1971),另壹個應用詞性的二元模型叫做CLAWS(
1987)(見Garside等人1989)。兩個系統分別用於評測654.38+0萬單詞的英語。
對不受限制的文本實施詞性標註。結果表明,爪子與統計語言模型
該系統的標註精度遠高於基於規則方法的TAGGIT系統。請看下表。
比:
系統名稱Taggit(1971)CLAWS(1987)標註號86 133方法3000 CSG規則隱馬爾可夫模型標註準確率77% 96%測試語料庫Brown LOB。
設c和w分別代表詞性標記的順序和詞的順序,那麽詞性標註的問題就可以看作是壹個方案。
計算下列條件概率的最大值:
C[*]=argmax[,C]P(C│W)
=argmax[,C]P(W│C)P(C)/P(W)
≈argmax[,C]ⅱ[,i=1,…,n]P(w[,i]│c[,i])P(c[,i]│c[,I
-1]) (7)
其中P(C│W)是已知輸入單詞序列W時,詞性標記序列C出現的條。
計件概率。數學符號argmax[,C]表示通過檢查語音標記序列C的不同候選部分
來尋找最大化條件概率的詞性標記序列C[*]。後者應該是
w的詞性標註結果。
公式的第二行是貝葉斯定律音譯的結果,因為分母P(W)給定了
w是常數,不影響最大值的計算,可以從公式中刪除。然後面向大眾
近似分析的類型。首先引入獨立性假設,認為任何壹個單詞w[,i]都是出來的。
現在的概率近似只與當前詞的詞性標記c[,i]有關,而與周圍(語境)有關。
詞類標記無關緊要。那麽詞匯概率可以計算如下:
P(W│C)≈ⅱ[,i=1,…,n]P(w[,i]│c[,i]) (8)
其次,采用二元假設,即近似考慮任意詞性標記c[,i]的出現概率。
只和它的前壹個詞性標記c[,i-1]有關。規則
P(C)≈P(c[,1])ⅱ[,i=2,…,n]P(c[,i]│c[,i-1]) (9)
P(c[,i]│c[,i-1])是詞性標記的轉移概率,也叫基於詞性的對偶。
模型。
這兩個概率參數可以通過帶有詞性標簽的語料庫來估計:
P(w[,i]│c[,i])≈count(w[,i],c[,i])/count(c[,i])(
10)
P(c[,i]│c[,i-1])≈count(c[,i-1]c[,i])/count(c[,i-1]
) (11)
根據文獻報道,使用統計語言模型方法,漢語和英語的詞性標註是正確的。
率可以達到96%左右(白帥虎1992)。
3.3.3介詞短語PP的附著歧義
在英語中,介詞短語是否附在前面的名詞或動詞後面是壹個句子。
法律分析中常見的結構歧義問題。下面的例子說明了如何用語料庫方法解決這個問題。
壹個問題,這種方法可以達到多高的正確率。
例如:皮埃爾·文肯,61歲,以董事身份加入董事會。
非執行董事。
設a = 1表示名詞附著,a = 0表示動詞附著,那麽就可以表達上例的PP附著問題。
用於:
(A=0,V =已加入,n 1 =板,P=as,N2 =控制器)
設V,N1,N2分別代表動詞短語、賓語短語和賓語短語的中心詞。
並且在帶有句法標簽的語料庫(也稱為樹庫)中統計後面的四元組的概率。
P[,r]:
P[,r]=(A=1│V=v,N1=n1,P=p,N2=n2) (10)
判斷輸入句子PP附著的算法如下:
如果p [,r] = (1 │ V,n1,P,n2)≥0.5,
則判斷PP附著在n1上,
否則,確定PP附著在v上。
柯林斯公司。Brooks(1995)實驗中使用的語料庫由賓夕法尼亞大學標註。
WSJ樹庫,包括:20,801個四元組的訓練集,測試。
嘗試設置3097個四邊形。他們對PP附件的自動測定精度的上限和下限提出了以下幾點。
分析:
全部視為名詞附加(即A ≡ 1) 59.0%
只考慮了介詞P最常見的附著的72.2%。
三位專家只根據中心四個字判斷了88.2%。
三位專家根據整句判斷93.2%。
很明顯,自動判斷準確率的下限是72.2%,因為機器不會比只考慮句子更好。
介詞p最常見的附著更差;上限是88.2%,因為機器比不上三。
專家根據這四個中心詞做出更好的判斷。
該論文報告說,在測試的3097個四邊形中,系統正確地判斷出四邊形。
是2606,所以平均準確率是84.1%。這與上述88.2%的上限不同
相比之下,應該說是相當不錯的成績了。
4.結論
語言學家的努力,無論是使用復雜的功能集和統壹的語法,還是詞匯主義。
方法都是在原有的所謂理性主義框架下做出的偉大貢獻。詞匯法
方法尤其值得稱贊,因為它不僅提出了更細粒度的語言知識表示方法。
式,同時也體現了壹種漸進式發展和語言知識積累的新思路。特別值得重視。
看來語料庫和統計方法在很多詞匯資源的開發中起到了很大的作用。
的作用。這也是經驗主義和理性主義融合的可喜開端。筆
研究者認為,語料庫方法和統計語言模型是目前自然語言處理技術的主流。
它們的實用價值已在許多應用系統中得到證明。統計語言模型研究,
特別是在結構化對象的統計建模方面,還有廣闊的發展空間。
參考資料:
阿爾茨,簡& amp威廉·邁斯(編輯。).1990.語料庫語言學:
理論與實踐〔C〕阿姆斯特丹:羅多皮。
柯林斯,m .和j .布魯克斯。1995.介詞短語
通過後退模型〔P〕的連接。在會議錄中
第三屆超大型語料庫研討會。馬薩諸塞州劍橋。
Garside,r .,G. Leech和G. Sampson(編輯).1989.這
英語的計算分析:基於語料庫的方法。
倫敦:朗曼。
羅得島州哈德森市1991。英語單詞語法〔M〕劍橋,
質量。:巴茲爾·布萊克威爾。
白帥虎,1992,漢語詞性自動標註系統研究[〔馬〕]。清華大學計算
機械科學與技術系碩士學位論文。
董振東和董強,1997,知網[J]。語言文字應用第三期。
於等,1998,《現代漢語語法信息詞典》[M]。北京:
清華大學出版社。