當前位置:成語大全網 - 漢語詞典 - PCFG摘要[統計恒常性解析] [14.4]

PCFG摘要[統計恒常性解析] [14.4]

14.4

基於概率的PCFG用於解決句法分析中的歧義問題。而基本PCFG在獲取非終結符擴展概率時沒有考慮非終結符在整個句子中的位置以及詞本身對句法分析的影響,導致概率不準確,因此需要對原PCFG進行增強。這在原文中有所描述:

較差的獨立性假設:CFG規則在概率上強加了壹個獨立性假設,這導致了解析樹中結構依賴性的較差建模。

缺乏詞匯條件:CFG規則沒有對特定單詞的句法事實進行建模,導致了次範疇化歧義、介詞附加和並列結構歧義等問題。

更具體的細節參考原文。

14.5

本節討論兩種增強基本PCFG的方法。壹種是將非終端的parant節點考慮在內,另壹種是將前置終端(詞性節點)的parant節點考慮在內,增加了整個模型的參數,使得現有的訓練集變小,容易出現過擬合。所以提到了通過選擇壹定程度的拆分合並,可以最大概率找到訓練集。對了,文中提到這種方法可以得到很好的解析精度,但是還有另外壹種解析模型,就是14.6之後的內容。

14.6

從壹開始我就提到了另壹種模式,這種模式的理念與上述模式不同。在上面的模型中,通過考慮parant節點,將非終結分裂轉化為更精細的節點,這裏我們考慮如何將詞法詞法信息考慮在內。本文中有壹句話描述了如何思考這種方法:

壹種自然的思考詞匯化語法的方式是作為壹個父註釋,也就是說,作為壹個簡單的上下文無關的語法,每個規則有許多副本,每個成分的每個可能的中心詞/head標簽有壹個副本。

意思是對每個無上下文節點進行增強,增加中心詞和中心詞對應的詞性信息,如下圖所示:

但是這種方法帶來了壹個問題,因為基本的非終端節點和前置終端節點基於詞匯被劃分成非常精細的節點,導致特征急劇增加。在現有的語料庫下,用下面的最大似然估計公式計算出來的詞頻幾乎等於0,太稀疏了。

所以有必要對這個公式做壹些假設,這就是柯林斯方法。

14 . 6 . 1 Collins方法的第壹個假設如下:

Collins解析器的第壹個直覺是認為每個(內部)CFG規則的右邊由壹個非終結符頭、該頭左邊的非終結符和該頭右邊的非終結符組成。抽象地說,我們認為這些規則如下:

也就是說,假設每個規則的右側是另壹個頭非終結符。根據head的計算規則,必然存在壹個與parant具有相同的中心詞和對應詞性的非終結符,這個非終結符被視為右側的頭非終結符。然後把整個規則的發生分成幾個獨立的事件,即給定頭非終結,左非終結和右非終結分別出現的概率。由於假設這些事件是獨立的,所以它們可以相乘(加上在邊緣位置停止)。

比如上圖14.25中的VBD|VP,dumped)是右腦非終結,14.26中先計算(VBD | VP,Dumbed)的概率,再分別計算基於頭非終結的左右非終結的概率。

總之,Colllins方法的本質是,通過假設公式14.25對應的事件由幾個獨立事件組成,將公式14.25寫成這些獨立事件的乘積形式,即14.26,然後分別計算乘積項對應的概率。因為乘積項的稀疏性大大降低,所以總體概率可以很容易得到。

14.7 ?另壹種方法是基於概率的CCG。

CCG的方法有大量的類別和相應的規則和詞匯,會對同壹個句子產生多種不同的解析。文中給出了壹個實例。下面的計劃可以有多種解析。

文中提到可以使用PCYK算法,因為ccg的規則只對應壹元和二元運算,但是因為CCG本身的特點(大量的範疇和詞庫)存在星座太多的問題。為了解決這個問題,采用了壹種稱為超級標記的方法,它可以準確地評估和找到最可能的成分。

14.7.3介紹了使用MEMM創建超級標簽的方法。最後,supertagging需要得到壹個類似下圖的表格,列出句子中每個單詞出現的可能性(美聯航服務丹佛),按降序排序。註意,我們在使用MEMM的時候,需要用到前面單詞的標簽信息,每壹步MEMM計算的結果都是壹系列帶有概率的標簽。那麽,壹步壹步來看,從左到右計算,最有可能選擇哪個標簽序列呢?這個結果可以通過viterbi算法實現,但是viterbi算法最終只能得到壹個最優的標簽序列,我們需要得到下表中每個詞的所有標簽和概率。因此,本文中提到可以用向前向後算法來計算。回想壹下正向算法,它實際上是計算每壹步中的每個標簽對應上壹步中所有標簽的概率,也就是前壹個詞出現後當前詞是當前標簽的概率。在這裏,我們考慮的是在這個句子出現之後,當前單詞出現當前標簽的概率。所以我們需要考慮到後向計算的當前詞的當前標簽的概率,最後得到兩個概率的乘積。

14.7.4,

獲得supertagger表後,使用A*算法獲得分析結果。文中提到的圖14.11給出的算法列表不是很清晰,但圖14.12較好地描述了A*的整個計算過程,可供參考。我們稍後再來復習A*算法,然後再回來研究算法14.5438+01。