當前位置:成語大全網 - 英語詞典 - 紙質閱讀筆記

紙質閱讀筆記

閱讀筆記-基於格子的遞歸神經網絡,編碼器

用於神經機器翻譯(蘇勁松等人)

摘要介紹:

NMT神經機器翻譯嚴重依賴於單詞級建模來學習輸入句子的語義表示。

對於處理沒有自然語言分隔符的語言(如漢語),需要先標記,這就產生了。

兩個問題:1)對於源句模型,找到最優的標簽粒度是非常困難的。粒度粗導致數據稀疏,粒度細導致有用信息丟失;2)難的時候容易出錯,錯誤會帶到NMT的編碼器,影響源句的表示。

基於這兩個問題,為了更好地對源句子建模,有必要為NMT提供多個標簽,而不是單個標簽序列。

本文提出了壹種基於字格的遞歸神經網絡NMT編碼器:1),它以多個標誌字格的壓縮編碼為輸入;2)並學習從先前時間步驟中的任意數量的輸入和隱藏狀態生成新的隱藏狀態。

字格是許多標記的壓縮表示,基於字格的編碼器不僅降低了最佳標記模式(1-best)的標記誤差

標記化錯誤),而且嵌入輸入句子更有表現力和靈活性。

NMT特色:

傳統的統計機器翻譯模擬流水線中源語言和目標語言之間的潛在結構和對應關系,

NMT訓練壹個統壹的編碼解碼神經網絡,其中編碼器將輸入的句子映射到固定長度的向量,解碼器從編碼的向量中生成翻譯。

基於詞格的遞歸神經網絡NMT:

本文研究和比較了兩種基於詞格的RNN編碼器:

1).淺字格GRU編碼器:基於來自采用標準GRU架構的多個標簽的輸入和隱藏狀態的組合;

2).深度字格的GRU編碼器:它學習和更新門、輸入和隱藏狀態的標記化特定。

向量),然後生成當前單元的隱藏狀態向量。

在這兩種編碼器中,可以同時使用許多不同的標記來模擬輸入句子。

結論:

與標準的RNN編碼器相比,本文的編碼器同時使用了輸入和先前的隱藏狀態,並依靠多個標簽對源語句進行建模。因此,它們不僅減少了1-最佳記號化。

誤差的傳播,並且比標準編碼器更具表現力和靈活性。

漢英翻譯的實驗結果表明,本文的編碼器在各種基線上都有顯著的提高。

展望:

本文的網絡結構取決於源句的詞格。擴展模型,將切分模型融合到源句表征學習中。這樣,象征和翻譯才能相互配合。此外,還采用了更好的組合策略來改進編碼器。

驗證實驗:

為了驗證該編碼器的有效性,我們在漢英翻譯任務上進行了實驗。

實驗結果表明:

(1)利用詞邊界信息學習準確嵌入的漢語句子是非常必要的。

(2)基於字格的RNN編碼器優於NMT的標準RNN編碼器。據我們所知,這是在詞格上構造NMT的首次嘗試。

實驗部分:

1.資料組

對NIST漢英翻譯任務中提出的編碼器進行了評估;

訓練數據集:從LDC2002E18、LDC2003E07、LDC2003E14、LDC2004T07和LDC2005T06中抽取的654.38+0.25萬對句子,其中中文單詞2790萬個,英文單詞3450萬個。

驗證數據集:NIST 2005年數據集

測試數據集:NIST 2002年、2003年、2004年、2006年和2008年的數據集。

我們使用斯坦福大學出版的toolkit2在CTB、北京大學和MSR語料庫上訓練分詞器來獲取中文句子格。

為了有效地訓練神經網絡,我們使用中英文最常用的50K個單詞作為我們的詞匯。在CTB、北大、MSR和格子語料庫中,漢語詞匯分別占98.5%、98.6%、99.3%、97.3%,英語詞匯占99.7%。

2.實驗結果:

字符覆蓋率:

翻譯質量:

使用1-最佳分詞的NMT解碼實驗:

型號:

詞格

格模型完全獨立於分詞,但在使用詞信息時更有效,因為它可以在上下文中自由選擇詞以消除歧義。

基於字格的兩種RNN編碼器

基於BLSTM的命名實體識別方法(馮等)

摘要介紹:

(1)監督學習的語料庫不足;(2)RNN不能很好地處理長距離依賴問題,訓練算法存在梯度消失或爆炸的問題。

基於三方面的考慮:(1)文本是否被識別為命名實體與其上下文有關,也與構成命名實體的每個詞和詞序有關;(2)考慮標註序列中標簽之間的相關性,約束本文提出的模型的代價函數,在小訓練數據上盡可能挖掘有價值的信息,提高命名實體識別的效果;(3)傳統識別方法中的人工特征和領域知識對命名實體的識別效果有重要影響,但人工特征的設計和領域知識的獲取代價昂貴。

因此,本文提出了壹種利用神經網絡模型解決命名實體識別問題的有效方法。該方法不直接依賴人工特征和外部資源,僅使用少量監督數據、領域知識和大量未標記數據,解決了當前機器學習方法過度依賴人工特征和領域知識、語料不足的問題。本文提出的命名實體識別方法綜合了詞的上下文信息、詞的前綴和後綴信息以及領域詞典,並將這些信息表征為詞的分布表示特征。考慮到詞的標簽之間的約束關系,進壹步提高了識別效果。

Outlook:本文只按順序讀取數據來識別命名實體,每個詞對命名實體的影響是壹樣的,沒有考慮不同詞對命名實體的不同影響。如何在該模型中引入深度學習的註意機制,將註意力集中在對命名實體識別有重要影響的詞上,是有待進壹步解決的問題。

實驗部分:

數據集:

DataSet1(大規模未標註語料庫),DataSet2(標註語料庫),DataSet3(命名實體識別標註語料庫)。

DataSet4(本文刪除DataSet2和DataSet3中的標簽,將其拆分成字符序列數據,得到壹個數據集)。

DataSet5(從搜狗輸入法詞庫中選取部分數據【包括中國、中國和國家機關、組織的常用名稱,拆分成字符序列數據】。

樣本分類:TP?FP?TN?【數學】函數

評價指標:準確率(p)、召回率(r)、f-score (f)、靈敏度、Sent)、特異性、Spec)、1-特異性(1GSpec)、準確率(0GSpec)。

實驗結果:

實驗影響因素:

地名和機構名兩種命名實體的長度通常比人的名字長,構成復雜。基於上下文的詞向量和BLSTM_Ec模型訓練的詞向量對識別效果有積極影響。

?姓名詞長度短,人的姓與名之間沒有強的綁定關系,姓名詞典中的姓名與待識別文本中的姓名實體沒有強的相關性。因此,前綴和後綴信息、標簽約束信息和領域知識對名稱實體有壹定影響,但影響不大。

型號:

其中Ec是字符級向量;Ew是基於上下文詞的詞向量。

讀書筆記——自動化漢語的智力研究

面向口語理解和命名實體的分詞

再認識(羅等)

背景:在英語文本中,句子是由空格分隔的單詞序列。中文句子是沒有自然分隔符的字符串(其他類似語言:阿拉伯語、日語)。中文處理任務的第壹步是識別句子中的詞序,並在適當的位置標出邊界。中文文本中的分詞可以在壹定程度上消除歧義。分詞通常被視為許多中文自然語言處理任務的第壹步,但它對這些後續任務的影響相對較少研究。

摘要介紹:

目前主要問題是對新數據應用現有的字分隔符時,出現1)的不匹配;2)更好的分詞器能否產生後續NLP任務更好的表現。

針對上述問題,本文提出三種方法:1)在後續任務中使用分詞輸出作為附加特征,比使用分詞單元更能抵抗錯誤傳播。2)利用後續任務的訓練數據獲得的壹些標簽數據來改進現有分詞,進壹步提高端到端性能。3)使用分詞輸出的n-best表,使得後續任務對分詞錯誤不太敏感。

中文分詞的主要任務是:1)識別句子中的詞序。2)在適當的位置標出邊界。

總結:

本文提出了三種方法:利用分詞輸出作為附加特征;進行本地學習適應;使用n-best表。

此外,還研究了CWS在三種不同情況下的影響:1)當領域數據沒有詞邊界信息時,利用公共領域外的數據構造的分詞器可以提高端到端的性能,利用人工標註導出的壹些標簽數據對其進行調整可以進壹步提高性能。2)邊緣化n-best分詞會帶來進壹步的改進。當領域切分可用時,使用領域數據本身訓練的分詞器具有更好的CWS性能,但不壹定具有更好的端到端任務性能。壹個在訓練和測試數據上更加平衡的分詞器可以獲得更好的端到端性能。3)人工劃分測試數據時,分詞確實對任務有幫助,分詞可以降低後續NLP任務的歧義性。

未來可能的方向:依次堆疊兩層CRF,壹層用於分詞,壹層用於後續任務。除了序列標記,還討論了更多的後續任務。

實驗(NER部分):

對於所使用的NER數據,領域訓練和測試數據都具有單詞邊界信息。本文討論了用領域數據訓練的分詞和公開可用數據(第二種情況)的區別。分詞成績與端到端後續任務的關系。

實驗數據:Bakeoff (SIGHAN-3)的基準NER數據在第三代SIGHAN漢語中處理。

(Levow,2006年).訓練集數據:46364句,測試集數據:4365句。這些數據標有單詞邊界和NER信息。

實驗結果: