當前位置:成語大全網 - 新華字典 - jieba分詞詳解

jieba分詞詳解

“結巴”分詞是壹個Python 中文分詞組件,參見 /fxsjy/jieba

可以對中文文本進行 分詞、詞性標註、關鍵詞抽取 等功能,並且支持自定義詞典。

本文包括以下內容:

1、jieba分詞包的 安裝

2、jieba分詞的 使用教程

3、jieba分詞的 工作原理與工作流程

4、jieba分詞所涉及到的 HMM、TextRank、TF-IDF等算法介紹

可以直接使用pip來進行安裝:

sudo pip install jieba

或者

sudo pip3 install jieba

關鍵詞抽取有兩種算法,基於TF-IDF和基於TextRank:

jieba分詞有三種不同的分詞模式: 精確模式、全模式和搜索引擎模式

對應的,函數前加l即是對應得到list結果的函數:

精確模式是最常用的分詞方法,全模式會將句子中所有可能的詞都列舉出來,搜索引擎模式則適用於搜索引擎使用。具體的差別可在下壹節工作流程的分析中詳述。

在上述每個函數中,都有名為HMM的參數。這壹項表示是否在分詞過程中利用HMM進行新詞發現。關於HMM,本文附錄中將簡述相關知識。

另外分詞支持自定義字典,詞典格式和 dict.txt 壹樣,壹個詞占壹行;每壹行分三部分:詞語、詞頻(可省略)、詞性(可省略),用空格隔開,順序不可顛倒。

具體使用方法為:

關鍵詞抽取的兩個函數的完整參數為:

可以通過

來打開或關閉並行分詞功能。

個人感覺壹般用不到,大文件分詞需要手動實現多進程並行,句子分詞也不至於用這個。

jieba分詞主要通過詞典來進行分詞及詞性標註,兩者使用了壹個相同的詞典。正因如此,分詞的結果優劣將很大程度上取決於詞典,雖然使用了HMM來進行新詞發現。

jieba分詞包整體的工作流程如下圖所示:

下面將根據源碼詳細地分析各個模塊的工作流程。

在之後幾節中,我們在 藍色的方框 中示範了關鍵步驟的輸出樣例或詞典文件的格式樣例。在本節中都采用類似的表示方式。

jieba分詞中,首先通過對照典生成句子的 有向無環圖 ,再根據選擇的模式不同,根據詞典 尋找最短路徑 後對句子進行截取或直接對句子進行截取。對於未登陸詞(不在詞典中的詞)使用 HMM 進行新詞發現。

詞典的格式應為

word1 freq1 word_type1

word2 freq2 word_type2

其中自定義用戶詞典中詞性word_type可以省略。

詞典在其他模塊的流程中可能也會用到,為方便敘述,後續的流程圖中將會省略詞典的初始化部分。

圖b演示了搜索引擎模式的工作流程,它會在精確模式分詞的基礎上,將長詞再次進行切分。

在這裏我們假定讀者已經了解HMM相關知識,如果沒有可先行閱讀下壹章內容中的HMM相關部分或者跳過本節。

在jieba分詞中,將字在詞中的位置B、M、E、S作為隱藏狀態,字是觀測狀態,使用了詞典文件分別存儲字之間的表現概率矩陣(finalseg/prob_emit.py)、初始概率向量(finalseg/prob_start.py)和轉移概率矩陣(finalseg/prob_trans.py)。這就是壹個標準的 解碼問題 ,根據概率再利用 viterbi算法 對最大可能的隱藏狀態進行求解。

詞性分析部分與分詞模塊用了同壹個基礎的分詞器,對於詞典詞的詞性,將直接從詞典中提取,但是對於新詞,詞性分析部分有壹個 專屬的新詞及其詞性的發現模塊

用於詞性標註的HMM模型與用於分詞的HMM模型相似,同樣將文字序列視為可見狀態,但是隱藏狀態不再是單單的詞的位置(B/E/M/S),而變成了詞的位置與詞性的組合,如(B,v)(B,n)(S,n)等等。因此其初始概率向量、轉移概率矩陣和表現概率矩陣和上壹節中所用的相比都要龐大的多,但是其本質以及運算步驟都沒有變化。

具體的工作流程如下圖所示。

jieba分詞中有兩種不同的用於關鍵詞抽取的算法,分別為TextRank和TF-IDF。實現流程比較簡單,其核心在於算法本身。下面簡單地畫出實現流程,具體的算法可以參閱下壹章內容。

TextRank方法默認篩選詞性,而TF-IDF方法模型不進行詞性篩選。

在本章中,將會簡單介紹相關的算法知識,主要包括用於新詞發現的 隱馬爾科夫模型 維特比算法 、用於關鍵詞提取的 TextRank TF-IDF 算法。

HMM即隱馬爾科夫模型,是壹種基於馬爾科夫假設的統計模型。之所以為“隱”,是因為相較於馬爾科夫過程HMM有著未知的參數。在世界上,能看到的往往都是表象,而事物的真正狀態往往都隱含在表象之下,並且與表象有壹定的關聯關系。

其中,S、O分別表示狀態序列與觀測序列。

如果讀者還對這部分內容心存疑問,不妨先往下閱讀,下面我們將以壹個比較簡單的例子對HMM及解碼算法進行實際說明與演示,在讀完下壹小節之後再回來看這些式子,或許能夠恍然大悟。

下面以壹個簡單的例子來進行闡述:

假設小明有壹個網友小紅,小紅每天都會在朋友圈說明自己今天做了什麽,並且假設其僅受當天天氣的影響,而當天的天氣也只受前壹天天氣的影響。

於小明而言,小紅每天做了什麽是可見狀態,而小紅那裏的天氣如何就是隱藏狀態,這就構成了壹個HMM模型。壹個HMM模型需要有五個要素:隱藏狀態集、觀測集、轉移概率、觀測概率和初始狀態概率。

即在第j個隱藏狀態時,表現為i表現狀態的概率。式中的n和m表示隱藏狀態集和觀測集中的數量。

本例中在不同的天氣下,小紅要做不同事情的概率也不同, 觀測概率 以表格的形式呈現如下:

其中

除此之外,還需要壹個初始狀態概率向量π,它表示了觀測開始時,即t=0時,隱藏狀態的概率值。本例中我們指定 π={0,0,1}

至此,壹個完整的 隱馬爾科夫模型 已經定義完畢了。

HMM壹般由三類問題:

概率計算問題 ,即給定 A,B,π 和隱藏狀態序列,計算觀測序列的概率;

預測問題 ,也成解碼問題,已知 A,B,π 和觀測序列,求最優可能對應的狀態序列;

學習問題 ,已知觀測序列,估計模型的 A,B,π 參數,使得在該模型下觀測序列的概率最大,即用極大似然估計的方法估計參數。

在jieba分詞中所用的是解碼問題,所以此處對預測問題和學習問題不做深入探討,在下壹小節中我們將繼續以本節中的例子為例,對解碼問題進行求解。

在jieba分詞中,采用了HMM進行新詞發現,它將每壹個字表示為B/M/E/S分別代表出現在詞頭、詞中、詞尾以及單字成詞。將B/M/E/S作為HMM的隱藏狀態,而連續的各個單字作為觀測狀態,其任務即為利用觀測狀態預測隱藏狀態,並且其模型的 A,B,π 概率已經給出在文件中,所以這是壹個標準的解碼問題。在jieba分詞中采用了 Viterbi算法 來進行求解。

Viterbi算法的基本思想是: 如果最佳路徑經過壹個點,那麽起始點到這個點的路徑壹定是最短路徑,否則用起始點到這點更短的壹條路徑代替這段,就會得到更短的路徑,這顯然是矛盾的;從起始點到結束點的路徑,必然要經過第n個時刻,假如第n個時刻有k個狀態,那麽最終路徑壹定經過起始點到時刻n中k個狀態裏最短路徑的點

將時刻t隱藏狀態為i所有可能的狀態轉移路徑i1到i2的狀態最大值記為

下面我們繼續以上壹節中的例子來對viterbi算法進行闡述:

小明不知道小紅是哪裏人,他只能通過小紅每天的活動來推斷那裏的天氣。

假設連續三天,小紅的活動依次為:“睡覺-打遊戲-逛街”,我們將據此計算最有可能的天氣情況。

表示第壹天為雨天能夠使得第二天為晴天的概率最大(也就是說如果第二天是晴天在最短路徑上的話,第壹天是雨天也壹定在最短路徑上,參見上文中Viterbi算法的基本思想)

此時已經到了最後的時刻,我們開始回溯。

其計算過程示意圖如下圖所示。

)的路徑。

TF-IDF(詞頻-逆文本頻率)是壹種用以評估字詞在文檔中重要程度的統計方法。它的核心思想是,如果某個詞在壹篇文章中出現的頻率即TF高,並且在其他文檔中出現的很少,則認為這個詞有很好的類別區分能力。

其中:

TextRank是壹種用以關鍵詞提取的算法,因為是基於PageRank的,所以先介紹PageRank。

PageRank通過互聯網中的超鏈接關系確定壹個網頁的排名,其公式是通過壹種投票的思想來設計的:如果我們計算網頁A的PageRank值,那麽我們需要知道哪些網頁鏈接到A,即首先得到A的入鏈,然後通過入鏈給網頁A進行投票來計算A的PR值。其公式為:

其中:

d為阻尼系數,取值範圍為0-1,代表從壹定點指向其他任意點的概率,壹般取值0.85。

將上式多次叠代即可直到收斂即可得到結果。

TextRank算法基於PageRank的思想,利用投票機制對文本中重要成分進行排序。如果兩個詞在壹個固定大小的窗口內***同出現過,則認為兩個詞之間存在連線。

公式與PageRank的基本相同。多次叠代直至收斂,即可得到結果。

在jieba分詞中,TextRank設定的詞窗口大小為5,將公式1叠代10次的結果作為最終權重的結果,而不壹定叠代至收斂。