當前位置:成語大全網 - 漢語詞典 - 論文本分析中的分詞及其關系

論文本分析中的分詞及其關系

在文本分析中,我們需要將文本分成單詞,並對這些單詞進行統計分析。基於python的jieba是非常流行的詞庫,然後Python Matplotlib也有可能基於networkx繪制關系網絡圖,但這裏我們將借助Gephi來制作。這個軟件很好用,在這裏我們會講解壹些方法。

解霸庫是Python中壹個重要的第三方中文分詞函數庫,可以將壹篇中文文本拆分成中文詞序列。

潔霸庫的分詞原理是將分詞的內容與分詞的中文詞庫進行對比,通過圖結構和動態規劃的方法,找到概率最大的短語。

支持四種分詞模式:

四種分離模式的示例:

結果:

從上面可以發現,我們要把生態環境、汙水處理和有限公司分開。精確模型和槳模型是不分離的。雖然整個模型和搜索引擎模型是分離的,但它們也包含未分割的短語。所以這裏我們可以使用自定義字典,使用load_userdict()。但是要註意自定義詞的詞頻,否則自定義詞典是不行的,因為當自定義詞的詞頻低於默認詞典的詞頻時,它仍然使用默認分詞,所以當詞頻高於默認詞頻時,我們會使用自定義詞典的分詞。

如何設置自定義詞典的詞頻,沒有具體的公式。概率越大,概率越大,只要超過默認字典就行,但不要太大。默認詞典

自定義詞典

其中user_dict定義如下:

jieba的簡介和使用都在這裏,更深層次的理論和使用可以在這個地址了解:jieba-github參考。

在圖論中,聚類系數(也叫聚集系數,聚類系數)是用來描述圖中頂點之間聚集程度的系數。具體來說,就是壹個點的相鄰點之間的互連程度。比如,在生活的社交網絡中,妳的朋友之間相互了解的程度是基於復雜網絡理論的代謝網絡結構的研究進展。有證據表明,在各種反映現實世界的網絡結構中,尤其是社會網絡結構中,節點傾向於形成相對高密度的網絡群體,如小群體結構模型中的傳遞性和‘小世界’網絡的集體動力學。也就是說,現實世界網絡的集聚系數高於隨機連接兩個節點得到的網絡。

假設圖中的壹些點成對相連,可以找到許多“三角形”,它們對應的三個點成對相連,稱為閉三點群。另外還有三點群,即三個點之間有兩條邊(缺壹邊的三角形)。

聚類系數有兩種定義;全球和本地。

全局算法:

本地算法:

平均系數:

以下是對其系數解的分析:

接下來我們用壹個例子來分析聚類系數的應用。我們這裏用的工具是Gephi,數據也是用它內置的數據。

在上面的分析中,我們提到了節點大小代表了自身的權重,但是有時候壹些需要識別的節點因為我們的節點範圍而很難分析。這時候可以考慮從顏色入手,也就是通過顏色從小到大的變化來判斷權重,當然也可以用漸變來判斷同壹個顏色。這裏我用三個變色範圍來分析。選擇並顯示如下:

從上圖中,我們選擇了紅、黃、藍三色的順序變化。右圖上,我們從節點大小加上顏色來判斷節點的權重更方便,即我們出現的次數越多,顏色越接近藍色,反之亦然。

從最後兩張圖的變化可以看出,它們的布局和分布是壹樣的,那麽這是什麽原因呢?

如圖所示,可以分析結構形成聚集的簇,這些簇通過彈簧相互強烈吸引,也就是說關系比較緊密。

在數據中,我們的圖是由節點和邊組成的,上面簡單分析了節點的處理,那麽如何分析邊呢?其實兩個詞之間的關系可以通過邊圖中線條的粗細來判斷,也就是出現的次數。如下圖所示:

因為頻率範圍太寬,我們把它們換算成0-1的範圍,權重最高的是1,其他數據都是以此為基礎換算的。

即換算後的比例、各權重值和最大權重值。

Jieba-github參考

聚類系數

ForceAtlas2,壹種便於網絡可視化的連續圖形布局算法