基於神經網絡的文本分類算法綜述（持續更新）

傳統文本分類壹般采用bag模型/Tf-idf作為特征+機器學習分類器進行分類。隨著深度學習的發展，越來越多的神經網絡模型被用於文本分類。本文將對這些神經網絡模型進行簡要介紹。

本文介紹了壹個詞向量模型，它不是文本分類模型，但可以說是fasttext的基礎。所以也簡單提壹下。

作者認為cbow、skipgram和大多數詞向量模型都沒有考慮壹個詞的多態性，而是簡單地將壹個詞的多個形式視為獨立的詞。例如，like的不同形式是like、like、like和like，這些單詞的含義實際上是相同的，但cbow/skipgram模型認為這些單詞是獨立的，而沒有考慮它們的形態多樣性。

為此，作者提出了壹種能有效利用單詞字符級信息的n元詞向量模型，並以skipgram模式實現了該模型。例如，單詞where的n元語法表示為

在損失方面，本文采用負抽樣+二元邏輯回歸的策略。也就是說，每個目標單詞被預測為肯定和否定之壹。

在本文中，作者提供了壹個基於神經網絡的文本分類模型，該模型基於cbow並與cbow非常相似。

與CBOW壹樣，fastText模型只有三層:輸入層、隱藏層和輸出層（分層Softmax）。輸入是壹些由向量表示的單詞，輸出是壹個特定的目標。隱藏層是多個詞向量的疊加和平均化。不同之處在於CBOW的輸入是目標單詞的上下文，而fastText的輸入是多個單詞及其n元語法特征的嵌入表示，用於表示單個文檔。CBOW的輸入單詞由onehot編碼，fastText的輸入特征是嵌入。CBOW的輸出是目標詞匯，fastText的輸出是文檔對應的類別標記。輸出層的實現也使用分層softmax。當然，如果妳自己實現的話，對於類別數量較少的任務可以直接使用softmax。

最後，貼壹張簡化版的Keras模型fasttext。

在詞向量表示的基礎上，提出利用卷積神經網絡對文本進行分類。算法如上圖所示:

在本文中，作者嘗試了多種不同的詞向量模式:

在上壹篇文章中，CNN網絡的輸入壹般是預先訓練好的詞向量，但在本文中，作者提出了壹種直接將嵌入訓練與分類任務相結合並能有效提取/保留詞序信息的模型方法，即有效訓練n-gram，這也可以理解為CNN嵌入的壹種方法。

此外，另壹個問題是輸入序列長度的變化（在上壹篇文章textCNN中通過填充解決？），在本文中，作者提出使用動態可變池層來解決此問題，從而使卷積層的輸出大小相同。實際上，變量池類似於圖像識別中的空間金字塔池。

這篇文章有把fastText和TextCNN結合起來的感覺，把n-gram嵌入和分類任務結合起來進行訓練，通過CNN進行嵌入。

通過區域嵌入進行文本分類》

在這篇文章中，作者提出了壹種tv-embedding（即兩視圖嵌入），它也屬於區域嵌入（也可以理解為ngram嵌入）。這種方法類似於上面的bow-CNN表示法。bow（單詞包）用於表示壹個區域中的單詞和短語，然後預測其前後的區域（左右鄰域中的單詞或短語），即輸入區域為view1，目標區域為view2。Tv-embedding單獨訓練，使用時與CNN中的embedding結合使用（形成多個頻道？)。作者認為通過word2vec方法預訓練的嵌入向量具有普適性，而通過訓練特定任務的數據集得到的tv-embedding具有與任務相關的壹些信息，更有利於提高我們的模型效果。

我不是很理解這篇文章，或者可能我的英語太差了。作者的文章中沒有壹眼就能看懂的網絡圖，比如textCNN的圖，壹目了然。看壹看就知道怎麽做了。

提出了壹種基於LSTM的文本分類模型，該模型使用了監督學習和半監督預訓練。文章作者和上面壹樣，所以用的很多技術可以說和上面壹樣。所以簡單談談本文的壹些想法。

作者認為現有的直接使用LSTM作為文本分類模型和直接使用LSTM的最後壹個輸出作為後續全連接分類器的方法面臨兩個問題:（1）這種方法壹般與詞嵌入（即onehot的輸入經過壹個嵌入層然後進入LSTM）集成在壹起，但嵌入訓練不穩定且難以訓練；（2）直接使用LSTM的最後輸出來表示整個文檔是不準確的。壹般來說，LSTM輸入背後的單詞將在最終輸出中占據很大的權重，但這對於文章表示並不總是正確的。因此，作者改進了這兩點:

其實這篇論文可以看作是作者前面的tv-embedding半監督訓練和RCNN的融合，有壹種操作猛如虎，壹眼望到頭0-5的感覺（因為作者的實驗結果和壹般的CNN相比其實並不多）。

本文作者也是前兩篇使用CNN進行文本分類的文章的作者。因此，在本文中，結合了前兩篇文章中提出的壹些方法，並使用了深度卷積神經網絡。具體細節包括:

有關DPCNN的更多詳細信息，請查看來自DPCNN的深層單詞級文本分類模型。

提出壹種基於CNN+Attention的文本分類模型。作者認為現有的基於CNN的文本分類模型大多使用固定大小的卷積核，因此學習到的表示也是固定的n-gram表示，而這個N與CNN濾波器的大小有關。然而，在句子的語義表示中，在不同句子中起重要作用的ngram單詞往往是不同的，即不斷變化的。因此，模型自適應地為每個句子選擇最佳n-gram以提高模型的語義表示能力至關重要。基於這壹思想，本文提出了壹種自適應模型來選擇不同的n-gram表示。

本文的模型在主體結構上參考了CV中的DenseNet，通過DenseNet中的密集連接提取豐富的n-gram特征表示。例如，我們不僅可以學習f（x 1，x2，x3），還可以學習f（x 1（x2，x3）），這是壹個多層次和更豐富的特征。網絡的結構主要包括三個部分:DenseCNN主網絡、Attention模塊和最後的全連接層分類網絡。以下是這三個部分的簡要說明:

本文采用密集連接+註意力自動獲取對文本語義最重要的n-gram特征，效果非常好。但是缺點是這種網絡更適合短文本。在本文中，輸入文本是填充的，對於不同的數據集，最大長度為50，100，但這對於長文本來說顯然是不夠的。因此，對於較長的文本，韓最好借用來不限制輸入長度。

提出了壹種結合遞歸神經網絡（RNN）和卷積神經網絡的文本分類方法。其結構如上圖所示，網絡可分為三個部分:

雖然它是RNN和CNN的結合，但它實際上只在CNN中使用池化，這有點像噱頭。還提到了RCNN優於CNN的原因，即RCNN為什麽能比CNN更好地捕獲上下文信息:CNN使用固定大小的窗口（即內核大小）來提取上下文信息，這實際上是壹個n-gram。因此，CNN的性能受窗口大小的影響很大。如果太小，就會丟失壹些遠距離信息。如果太大，會導致稀疏，增加計算量。

在許多自然語言處理任務中，壹個非常突出的問題是訓練數據的缺乏和標註的困難。為此，本文提出了壹種多任務RNN模型框架，該框架使用多個不同的任務數據集來訓練同壹模型的參數，並實現了擴展數據集的功能。

本文作者提出了三種模型，如上圖所示:

三種模型的訓練方法相同:

本文提出了壹種層次化的LSTM+註意力模型。作者認為雖然壹篇文章由幾個句子組成，但其中壹些句子可能真的起著關鍵作用，因此將註意力機制應用於每個句子，以使對文章語義貢獻更大的句子占據更大的權重。同樣，組成壹個句子的單詞有很多，但只有少數幾個可能發揮重要作用，因此利用註意機制使重要單詞發揮更大作用是本文的核心思想。整個網絡可以分為三層，兩個LSTM層分別用於單詞編碼和句子編碼，頂層是全連接分類層。如果加上兩層註意力，妳可以把網絡想象成五層。讓我們簡單談談五層網絡的結構:

總的來說，這篇文章看起來很有趣，符合人們閱讀文章的習慣。當我們寫文章時，我們也有中心詞和中心句。但是，不知道這種分層結構是否會導致訓練緩慢或訓練效果不佳。最後，論文還提出先將文章按長度排序，進入壹個長度相近的批次，使訓練速度加快了3倍。

提出了壹種基於圖神經網絡的文本分類方法。這種方法的主要思想是將所有文章及其詞匯放入壹個圖網絡中。圖網絡中的節點分為兩種類型:單詞節點和文章節點。其中，連接單詞節點和文章節點的邊的權重由TF-IDF表示，而單詞之間的邊的權重由點互信息（PMI）表示。點互信息與傳統語言模型中條件概率的計算方法非常相似。但是PMI采用滑動窗口方法，條件概率直接在所有語料庫中統計，可以認為是壹個大窗口，然後它與PMI相同。

a表示圖網絡的鄰接矩陣，如下所示:

GCN還可以包含多個隱藏層，每層的計算方法如下:

其中a’是歸壹化對稱鄰接矩陣，w0∈r（m×k）是權重矩陣，ρ是激活函數，例如ReLUρ（x）= max（0，x）。如上所述，可以通過疊加多個GCN層來合並高階鄰域信息:

其中j代表層數。

損失函數被定義為所有標記文檔的交叉熵誤差:

文本GCN運行良好有兩個原因:

但它也有壹些缺點:

總的來說，文章的想法挺有意思的，效果也還不錯。當妳第壹次見到GCN時，可能還是有點難以理解。您可以參考以下資料進行進壹步研究:

基於圖卷積網絡的文本分類算法

如何理解圖形非自願網絡（GCN）？