jiebaR筆記

查看幫助

jiebaR中文分詞文檔

這個很詳細很強大

還有微信上看到有人的分享文章也不錯： /s/PJ5bCtodjxikcSbynEZ8Dw

本文就是在參照以上資料寫的

兩個重要函數：

worker 是最重要的壹個函數。

函數使用方法(獲取幫助)：

語法：

worker() 用於新建分詞引擎。

worker() 有很多參數。

指分詞引擎類型，這個包括mix,mp,hmm,full,query,tag,simhash,keyword,分別指混合模型，支持最大概率，隱形馬爾科夫模型，全模式，索引模式，詞性標註，文本Simhash相似度比較，關鍵字提取。

具體為：

mp(最大概率模型)- 基於詞典和詞頻

hmm(HMM模型)- 基於HMM模型,可以發現詞典中沒有的詞

mix(混合模型)-先用mp分，mp分完調用hmm再把剩余的可能成詞的單字分出來

query(索引模型)-mix基礎上，對大於壹定長度的詞再進行壹次切分

tag(標記模型)-詞性標記，基於詞典的

keywords(關鍵詞模型)- tf-idf抽關鍵詞

simhash(Simhash) - 在關鍵詞的基礎上計算simhash

系統詞典。詞庫路徑，默認為jiebaR::DICTPATH。

打開jieba.dict.utf8，如下(包括詞、詞頻、詞性標註三列)：

看了這個圖片，大概就有了壹個直觀的認識。

也可以讀取前n條查看:

用戶詞典中詞的詞頻，默認為"max",系統詞典的最大值。

還可以選擇"min"最小值或"median"中位數

IDF 詞典，關鍵詞提取使用。

關鍵詞提取使用的停止詞庫。

分詞時也可以使用，但是分詞時使用的對應路徑不能為默認的jiabaR::STOPPATH

是否將文件分詞結果寫入文件，默認為否。只在輸入內容為文件路徑時，本參數才會被使用。本參數只對分詞和詞性標註有效。

關鍵詞的個數，默認為5，可以用於simhash和keyword分詞類型

另外壹個函數是 segment .

它有三個參數， code 好比任務, jiebar 就是壹個worker, mod 參數告訴worker怎麽做，也就是什麽分詞引擎分詞。

1.分詞

這個地方，"很早" "就"是這樣的。它是"很" "早就"的。

2.添加用戶自定義詞或詞庫

這個有兩種方法：

使用user參數添加詞庫

自定義壹個詞庫

zidingyi.txt

文件內容：

早早就

很早

註意下哦：

3.添加停止詞以刪除

這裏，刪除"又"、"的"這樣的詞

使用worker函數的 stop_word 參數

新建stopwords.txt文件，同上

4.統計詞頻

jiebaR包，提供了壹個函數 freq 來自動計算獲取詞頻。

這個函數自動計算了words分詞後的詞頻。

之後就可以用wordcloud2繪制詞雲(這裏詞頻太少啦)

jiebaR包提供了壹個 qseg 函數,它也可以分詞：

兩種使用方法：

5.詞性標註

詞性標註可以使用worker函數的 type 參數。

type默認參數為mix,將它設置為tag。

6.提取關鍵字

把worker函數的參數type設置為 keyword 或 simhash ,使用參數 topn 設置提取關鍵詞的個數,默認為5.

jiebaR的大部分功能都可以通過worker函數來實現。

可參考jiebaR的主頁：

/jiebaR/

附上關於worker()參數的英文說明(具體參數使用可以實際操作以下）。