查看幫助
jiebaR中文分詞文檔
這個很詳細很強大
還有微信上看到有人的分享文章也不錯: /s/PJ5bCtodjxikcSbynEZ8Dw
本文就是在參照以上資料寫的
兩個重要函數:
worker 是最重要的壹個函數。
函數使用方法(獲取幫助):
語法:
worker() 用於新建分詞引擎。
worker() 有很多參數。
指分詞引擎類型,這個包括mix,mp,hmm,full,query,tag,simhash,keyword,分別指混合模型,支持最大概率,隱形馬爾科夫模型,全模式,索引模式,詞性標註,文本Simhash相似度比較,關鍵字提取。
具體為:
mp(最大概率模型)- 基於詞典和詞頻
hmm(HMM模型)- 基於HMM模型,可以發現詞典中沒有的詞
mix(混合模型)-先用mp分,mp分完調用hmm再把剩余的可能成詞的單字分出來
query(索引模型)-mix基礎上,對大於壹定長度的詞再進行壹次切分
tag(標記模型)-詞性標記,基於詞典的
keywords(關鍵詞模型)- tf-idf抽 關鍵詞
simhash(Simhash) - 在關鍵詞的基礎上計算simhash
系統詞典。詞庫路徑,默認為jiebaR::DICTPATH。
打開jieba.dict.utf8,如下(包括詞、詞頻、詞性標註三列):
看了這個圖片,大概就有了壹個直觀的認識。
也可以讀取前n條查看:
用戶詞典中詞的詞頻,默認為"max",系統詞典的最大值。
還可以選擇"min"最小值或"median"中位數
IDF 詞典,關鍵詞提取使用。
關鍵詞提取使用的停止詞庫。
分詞時也可以使用,但是分詞時使用的對應路徑不能為默認的jiabaR::STOPPATH
是否將文件分詞結果寫入文件,默認為否。只在輸入內容為文件路徑時,本參數才會被使用。本參數只對分詞和詞性標註有效。
關鍵詞的個數,默認為5,可以用於simhash和keyword分詞類型
另外壹個函數是 segment .
它有三個參數, code 好比任務, jiebar 就是壹個worker, mod 參數告訴worker怎麽做,也就是什麽分詞引擎分詞。
1.分詞
這個地方,"很早" "就"是這樣的。它是"很" "早就"的。
2.添加用戶自定義詞或詞庫
這個有兩種方法:
使用user參數添加詞庫
自定義壹個詞庫
zidingyi.txt
文件內容:
早早就
很早
註意下哦:
3.添加停止詞以刪除
這裏,刪除"又"、"的"這樣的詞
使用worker函數的 stop_word 參數
新建stopwords.txt文件,同上
4.統計詞頻
jiebaR包,提供了壹個函數 freq 來自動計算獲取詞頻。
這個函數自動計算了words分詞後的詞頻。
之後就可以用wordcloud2繪制詞雲(這裏詞頻太少啦)
//
jiebaR包提供了壹個 qseg 函數,它也可以分詞:
兩種使用方法:
5.詞性標註
詞性標註可以使用worker函數的 type 參數。
type默認參數為mix,將它設置為tag。
6.提取關鍵字
把worker函數的參數type設置為 keyword 或 simhash ,使用參數 topn 設置提取關鍵詞的個數,默認為5.
jiebaR的大部分功能都可以通過worker函數來實現。
可參考jiebaR的主頁:
/jiebaR/
附上關於worker()參數的英文說明(具體參數使用可以實際操作以下)。