本文介紹了壹個詞向量模型,它不是文本分類模型,但可以說是fasttext的基礎。所以也簡單提壹下。
作者認為cbow、skipgram和大多數詞向量模型都沒有考慮壹個詞的多態性,而是簡單地將壹個詞的多個形式視為獨立的詞。例如,like的不同形式是like、like、like和like,這些單詞的含義實際上是相同的,但cbow/skipgram模型認為這些單詞是獨立的,而沒有考慮它們的形態多樣性。
為此,作者提出了壹種能有效利用單詞字符級信息的n元詞向量模型,並以skipgram模式實現了該模型。例如,單詞where的n元語法表示為
在損失方面,本文采用負抽樣+二元邏輯回歸的策略。也就是說,每個目標單詞被預測為肯定和否定之壹。
在本文中,作者提供了壹個基於神經網絡的文本分類模型,該模型基於cbow並與cbow非常相似。
與CBOW壹樣,fastText模型只有三層:輸入層、隱藏層和輸出層(分層Softmax)。輸入是壹些由向量表示的單詞,輸出是壹個特定的目標。隱藏層是多個詞向量的疊加和平均化。不同之處在於CBOW的輸入是目標單詞的上下文,而fastText的輸入是多個單詞及其n元語法特征的嵌入表示,用於表示單個文檔。CBOW的輸入單詞由onehot編碼,fastText的輸入特征是嵌入。CBOW的輸出是目標詞匯,fastText的輸出是文檔對應的類別標記。輸出層的實現也使用分層softmax。當然,如果妳自己實現的話,對於類別數量較少的任務可以直接使用softmax。
最後,貼壹張簡化版的Keras模型fasttext。
在詞向量表示的基礎上,提出利用卷積神經網絡對文本進行分類。算法如上圖所示:
在本文中,作者嘗試了多種不同的詞向量模式:
在上壹篇文章中,CNN網絡的輸入壹般是預先訓練好的詞向量,但在本文中,作者提出了壹種直接將嵌入訓練與分類任務相結合並能有效提取/保留詞序信息的模型方法,即有效訓練n-gram,這也可以理解為CNN嵌入的壹種方法。
此外,另壹個問題是輸入序列長度的變化(在上壹篇文章textCNN中通過填充解決?),在本文中,作者提出使用動態可變池層來解決此問題,從而使卷積層的輸出大小相同。實際上,變量池類似於圖像識別中的空間金字塔池。
這篇文章有把fastText和TextCNN結合起來的感覺,把n-gram嵌入和分類任務結合起來進行訓練,通過CNN進行嵌入。
通過區域嵌入進行文本分類》
在這篇文章中,作者提出了壹種tv-embedding(即兩視圖嵌入),它也屬於區域嵌入(也可以理解為ngram嵌入)。這種方法類似於上面的bow-CNN表示法。bow(單詞包)用於表示壹個區域中的單詞和短語,然後預測其前後的區域(左右鄰域中的單詞或短語),即輸入區域為view1,目標區域為view2。Tv-embedding單獨訓練,使用時與CNN中的embedding結合使用(形成多個頻道?)。作者認為通過word2vec方法預訓練的嵌入向量具有普適性,而通過訓練特定任務的數據集得到的tv-embedding具有與任務相關的壹些信息,更有利於提高我們的模型效果。
我不是很理解這篇文章,或者可能我的英語太差了。作者的文章中沒有壹眼就能看懂的網絡圖,比如textCNN的圖,壹目了然。看壹看就知道怎麽做了。
提出了壹種基於LSTM的文本分類模型,該模型使用了監督學習和半監督預訓練。文章作者和上面壹樣,所以用的很多技術可以說和上面壹樣。所以簡單談談本文的壹些想法。
作者認為現有的直接使用LSTM作為文本分類模型和直接使用LSTM的最後壹個輸出作為後續全連接分類器的方法面臨兩個問題:(1)這種方法壹般與詞嵌入(即onehot的輸入經過壹個嵌入層然後進入LSTM)集成在壹起,但嵌入訓練不穩定且難以訓練;(2)直接使用LSTM的最後輸出來表示整個文檔是不準確的。壹般來說,LSTM輸入背後的單詞將在最終輸出中占據很大的權重,但這對於文章表示並不總是正確的。因此,作者改進了這兩點:
其實這篇論文可以看作是作者前面的tv-embedding半監督訓練和RCNN的融合,有壹種操作猛如虎,壹眼望到頭0-5的感覺(因為作者的實驗結果和壹般的CNN相比其實並不多)。
本文作者也是前兩篇使用CNN進行文本分類的文章的作者。因此,在本文中,結合了前兩篇文章中提出的壹些方法,並使用了深度卷積神經網絡。具體細節包括:
有關DPCNN的更多詳細信息,請查看來自DPCNN的深層單詞級文本分類模型。
提出壹種基於CNN+Attention的文本分類模型。作者認為現有的基於CNN的文本分類模型大多使用固定大小的卷積核,因此學習到的表示也是固定的n-gram表示,而這個N與CNN濾波器的大小有關。然而,在句子的語義表示中,在不同句子中起重要作用的ngram單詞往往是不同的,即不斷變化的。因此,模型自適應地為每個句子選擇最佳n-gram以提高模型的語義表示能力至關重要。基於這壹思想,本文提出了壹種自適應模型來選擇不同的n-gram表示。
本文的模型在主體結構上參考了CV中的DenseNet,通過DenseNet中的密集連接提取豐富的n-gram特征表示。例如,我們不僅可以學習f(x 1,x2,x3),還可以學習f(x 1(x2,x3)),這是壹個多層次和更豐富的特征。網絡的結構主要包括三個部分:DenseCNN主網絡、Attention模塊和最後的全連接層分類網絡。以下是這三個部分的簡要說明:
本文采用密集連接+註意力自動獲取對文本語義最重要的n-gram特征,效果非常好。但是缺點是這種網絡更適合短文本。在本文中,輸入文本是填充的,對於不同的數據集,最大長度為50,100,但這對於長文本來說顯然是不夠的。因此,對於較長的文本,韓最好借用來不限制輸入長度。
提出了壹種結合遞歸神經網絡(RNN)和卷積神經網絡的文本分類方法。其結構如上圖所示,網絡可分為三個部分:
雖然它是RNN和CNN的結合,但它實際上只在CNN中使用池化,這有點像噱頭。還提到了RCNN優於CNN的原因,即RCNN為什麽能比CNN更好地捕獲上下文信息:CNN使用固定大小的窗口(即內核大小)來提取上下文信息,這實際上是壹個n-gram。因此,CNN的性能受窗口大小的影響很大。如果太小,就會丟失壹些遠距離信息。如果太大,會導致稀疏,增加計算量。
在許多自然語言處理任務中,壹個非常突出的問題是訓練數據的缺乏和標註的困難。為此,本文提出了壹種多任務RNN模型框架,該框架使用多個不同的任務數據集來訓練同壹模型的參數,並實現了擴展數據集的功能。
本文作者提出了三種模型,如上圖所示:
三種模型的訓練方法相同:
本文提出了壹種層次化的LSTM+註意力模型。作者認為雖然壹篇文章由幾個句子組成,但其中壹些句子可能真的起著關鍵作用,因此將註意力機制應用於每個句子,以使對文章語義貢獻更大的句子占據更大的權重。同樣,組成壹個句子的單詞有很多,但只有少數幾個可能發揮重要作用,因此利用註意機制使重要單詞發揮更大作用是本文的核心思想。整個網絡可以分為三層,兩個LSTM層分別用於單詞編碼和句子編碼,頂層是全連接分類層。如果加上兩層註意力,妳可以把網絡想象成五層。讓我們簡單談談五層網絡的結構:
總的來說,這篇文章看起來很有趣,符合人們閱讀文章的習慣。當我們寫文章時,我們也有中心詞和中心句。但是,不知道這種分層結構是否會導致訓練緩慢或訓練效果不佳。最後,論文還提出先將文章按長度排序,進入壹個長度相近的批次,使訓練速度加快了3倍。
提出了壹種基於圖神經網絡的文本分類方法。這種方法的主要思想是將所有文章及其詞匯放入壹個圖網絡中。圖網絡中的節點分為兩種類型:單詞節點和文章節點。其中,連接單詞節點和文章節點的邊的權重由TF-IDF表示,而單詞之間的邊的權重由點互信息(PMI)表示。點互信息與傳統語言模型中條件概率的計算方法非常相似。但是PMI采用滑動窗口方法,條件概率直接在所有語料庫中統計,可以認為是壹個大窗口,然後它與PMI相同。
a表示圖網絡的鄰接矩陣,如下所示:
GCN還可以包含多個隱藏層,每層的計算方法如下:
其中a’是歸壹化對稱鄰接矩陣,w0∈r(m×k)是權重矩陣,ρ是激活函數,例如ReLUρ(x)= max(0,x)。如上所述,可以通過疊加多個GCN層來合並高階鄰域信息:
其中j代表層數。
損失函數被定義為所有標記文檔的交叉熵誤差:
文本GCN運行良好有兩個原因:
但它也有壹些缺點:
總的來說,文章的想法挺有意思的,效果也還不錯。當妳第壹次見到GCN時,可能還是有點難以理解。您可以參考以下資料進行進壹步研究:
基於圖卷積網絡的文本分類算法
如何理解圖形非自願網絡(GCN)?