當前位置:成語大全網 - 漢語詞典 - 基於樹狀遞歸神經網絡的Twitter謠言檢測

基於樹狀遞歸神經網絡的Twitter謠言檢測

在謠言檢測的研究中,基於謠言傳播結構的方法很少。壹些基於核的方法被用來模擬傳播樹的結構。謠言和非謠言可以通過比較樹的相似度來區分,但是壹棵樹不能直接分類,需要和其他樹比較。

本文提出用遞歸神經網絡來建模和學習謠言的傳播結構。RvNN本身用於學習段落或句子的語法和語義表示。與文本解析不同,我們模型的輸入是來自源tweets的傳播樹,而不是單句解析樹,樹的節點是響應帖子而不是單個單詞。通過沿著樹形結構的遞歸特征學習過程,可以捕獲帖子的內容語義以及它們之間的響應關系。

那麽,為什麽這個神經模型能更好地完成謠言檢測任務呢?人們發現,Twitter可以通過分享觀點、猜測和證據來“自我糾正”壹些不準確的信息。例如,下圖顯示了虛假謠言和真實謠言的傳播樹:

結構不敏感的方法基本上依賴於文本中不同位置的相對比例,在這種線索不清晰的情況下無法起到很好的作用。但是我們可以看到,當壹個帖子否認壹個虛假的謠言時,往往會得到壹個支持或者肯定的回復,這就證實了對謠言的否認;相反,對真謠言的否定往往會導致懷疑或否定。這個觀察結果可能隱含了壹個更普遍的假設,即受訪者傾向於不同意(或質疑)支持假謠言或否認真謠言的人,也傾向於同意否認假謠言或支持真謠言的人。同時,壹個回復通常會回復它的直接祖先(也就是回復的帖子),而不是直接回復源推文(也就是傳播樹的根節點)。遞歸網絡自然地對這些結構進行建模,以學習捕捉謠言指示信號,並通過遞歸聚合來自不同分支的信號來增強其代表性。

本文采用的RvNN模型分為兩種類型,自底向上(BN)模型和自頂向下(TD)模型,它們以不同的方式表示傳播樹結構。這種體系結構的重要優點是,給定傳播樹的所有路徑的連接和方向,可以通過遞歸選擇性地優化節點特性。

謠言檢測數據集被定義為壹個集合,每個集合包含源推文和所有相關的響應推文,按時間順序排列,即。需要註意的是,推文雖然是按時間順序標註的,但是基於回復或轉發關系進行關聯,可以形成傳播樹結構,並以此為根節點。謠言檢測問題定義為壹個分類任務,即學習壹個分類器,它屬於四個細粒度的類:非謠言、虛假謠言、真實謠言和未核實謠言。

按照樹結構的方向分為兩種類型:

①①自底向上樹的回復節點總是指向回復的節點,葉子節點沒有回復,用表示,其中對於節點來說,存在就是回復;

②自上而下的樹符合信息傳播的方向,表示信息從壹個方向流向另壹個方向,看到並留下了回復。

RvNN的最初版本是壹棵用於句子解析的二叉樹,每個節點所代表的計算與其直接子節點相關聯。例如,下圖顯示了RvNN的結構,它對應於圖中左側的分析樹:

葉節點是單詞在輸入句子中的單詞嵌入。如果壹個父節點用表示,它的兩個子節點是sum,那麽父節點表示的計算過程就是激活函數和參數,在所有節點上遞歸執行,學習到的節點表示可以用於各種分類任務。

自底向上模型的核心思想是通過遞歸訪問每個節點,從底葉到頂根,為每個子樹生成特征向量,最後聚合頂根節點的表示作為樹的全局表示。下圖(a)和(b)顯示了傳播樹及其相應的RvNN計算過程:

每個節點的表示就是回復對應的tf-idf向量。這裏每個節點都有壹個輸入向量,壹個節點的子節點數不壹定相同。本文選擇擴展GRU作為隱含層單元。使用表示節點的直接子節點集,節點隱藏狀態的計算過程為:

是原始輸入向量,用於仿射變換,是GRU的參數,代表哈達瑪積。如果妳不了解GRU,妳可以參考壹下:人人都能理解的GRU。

最後,根節點的隱藏狀態用於分類:

自頂向下RvNN旨在利用自頂向下的樹形結構,捕獲用於分類謠言的復雜傳播模式,其計算過程如上圖(c)所示。每個節點的表示是通過將其自身的輸入與其父節點而不是其子節點相結合來計算的,這與自底向上的模型不同。

使用代表節點的父節點,節點隱藏狀態的計算過程如下:

然後,通過最大池對葉節點的表示進行分類,這有助於從所有傳播路徑中捕捉最有效的指示性特征:

我們可以推測,自上而下的模式會更好。在自底向上的情況下,最終輸出依賴於根節點的表示,其信息損失大於自頂向下的模型。因為在自頂向下的情況下,通過不同傳播路徑嵌入葉節點的表示可以通過池化合並為壹個整體。

平方損失用於訓練和L2正則化;

是類別的數量。Adagrad用於訓練,模型參數采用均勻分布初始化。字典大小為5000,隱藏層狀態和嵌入大小為100。

比較了幾個基線的影響:

及早發現和檢測謠言;

以下是由自下而上和自上而下模型檢測到的虛假謠言的示例: