當前位置:成語大全網 - 英語詞典 - jiebaR筆記

jiebaR筆記

查看幫助

jiebaR中文分詞文檔

這個很詳細很強大

還有微信上看到有人的分享文章也不錯: /s/PJ5bCtodjxikcSbynEZ8Dw

本文就是在參照以上資料寫的

兩個重要函數:

worker 是最重要的壹個函數。

函數使用方法(獲取幫助):

語法:

worker() 用於新建分詞引擎。

worker() 有很多參數。

指分詞引擎類型,這個包括mix,mp,hmm,full,query,tag,simhash,keyword,分別指混合模型,支持最大概率,隱形馬爾科夫模型,全模式,索引模式,詞性標註,文本Simhash相似度比較,關鍵字提取。

具體為:

mp(最大概率模型)- 基於詞典和詞頻

hmm(HMM模型)- 基於HMM模型,可以發現詞典中沒有的詞

mix(混合模型)-先用mp分,mp分完調用hmm再把剩余的可能成詞的單字分出來

query(索引模型)-mix基礎上,對大於壹定長度的詞再進行壹次切分

tag(標記模型)-詞性標記,基於詞典的

keywords(關鍵詞模型)- tf-idf抽 關鍵詞

simhash(Simhash) - 在關鍵詞的基礎上計算simhash

系統詞典。詞庫路徑,默認為jiebaR::DICTPATH。

打開jieba.dict.utf8,如下(包括詞、詞頻、詞性標註三列):

看了這個圖片,大概就有了壹個直觀的認識。

也可以讀取前n條查看:

用戶詞典中詞的詞頻,默認為"max",系統詞典的最大值。

還可以選擇"min"最小值或"median"中位數

IDF 詞典,關鍵詞提取使用。

關鍵詞提取使用的停止詞庫。

分詞時也可以使用,但是分詞時使用的對應路徑不能為默認的jiabaR::STOPPATH

是否將文件分詞結果寫入文件,默認為否。只在輸入內容為文件路徑時,本參數才會被使用。本參數只對分詞和詞性標註有效。

關鍵詞的個數,默認為5,可以用於simhash和keyword分詞類型

另外壹個函數是 segment .

它有三個參數, code 好比任務, jiebar 就是壹個worker, mod 參數告訴worker怎麽做,也就是什麽分詞引擎分詞。

1.分詞

這個地方,"很早" "就"是這樣的。它是"很" "早就"的。

2.添加用戶自定義詞或詞庫

這個有兩種方法:

使用user參數添加詞庫

自定義壹個詞庫

zidingyi.txt

文件內容:

早早就

很早

註意下哦:

3.添加停止詞以刪除

這裏,刪除"又"、"的"這樣的詞

使用worker函數的 stop_word 參數

新建stopwords.txt文件,同上

4.統計詞頻

jiebaR包,提供了壹個函數 freq 來自動計算獲取詞頻。

這個函數自動計算了words分詞後的詞頻。

之後就可以用wordcloud2繪制詞雲(這裏詞頻太少啦)

//

jiebaR包提供了壹個 qseg 函數,它也可以分詞:

兩種使用方法:

5.詞性標註

詞性標註可以使用worker函數的 type 參數。

type默認參數為mix,將它設置為tag。

6.提取關鍵字

把worker函數的參數type設置為 keyword 或 simhash ,使用參數 topn 設置提取關鍵詞的個數,默認為5.

jiebaR的大部分功能都可以通過worker函數來實現。

可參考jiebaR的主頁:

/jiebaR/

附上關於worker()參數的英文說明(具體參數使用可以實際操作以下)。