如何使用java中文分詞組件詞

請參考以下內容

1，快速體驗

在項目根目錄下運行腳本demo-word.bat可以快速體驗分詞的效果。

用法:命令[文本][輸入][輸出]

command命令的可選值有:演示、文本和文件。

演示

正文楊尚川是APDPlat應用級產品開發平臺的作者。

文件d:/text.txt d:/word.txt

出口

2.文本的分割

刪除停用詞:列表

保留停用字詞:列表

System.out.println(單詞)；

輸出:

去掉停用詞:【楊尚川，apdplat，應用級別，產品，開發平臺，作者】

停用詞:【楊尚川，apdplat作者，應用級，產品，開發平臺，】

3.文件的分詞

string input = " d:/text . txt "；

string output = " d:/word . txt "；

去掉停用詞:wordsegmenter.seg(新文件(輸入)，新文件(輸出))；

停用詞:wordsegmenter . segwithstopwwords(新文件(輸入)，新文件(輸出))；

4.自定義配置文件

默認的配置文件是類路徑下的word.conf，它打包在word-x.x.jar中

自定義配置文件是類路徑下的word.local.conf，需要用戶自己提供。

如果自定義配置和默認配置相同，自定義配置將覆蓋默認配置。

配置文件編碼為UTF-8。

5.自定義用戶同義詞庫

自定義用戶同義詞庫是壹個或多個文件夾或文件，可以使用絕對路徑或相對路徑。

用戶詞庫由幾個詞典文件組成，文件編碼為UTF-8。

字典文件的格式是文本文件，壹行代表壹個單詞。

路徑可以由系統屬性或配置文件指定，多個路徑用逗號分隔。

對於類路徑下的字典文件，應該在相對路徑前添加前綴classpath:

有三種方法可以指定:

指定方法1，編程指定(高優先級):

WordConfTools.set("dic.path "，" classpath:dic.txt，d:/custom _ DIC ")；

dictionary factory . reload()；//更改字典路徑後重新加載字典。

指定第二種方法，Java虛擬機啟動參數(中等優先級):

Java-ddic . path = class path:DIC . txt，d:/custom_dic

方法3:配置文件指定(低優先級):

使用類路徑下的word.local.conf文件指定配置信息。

dic.path=classpath:dic.txt，d:/custom_dic

如果未指定，默認情況下將使用類路徑下的dic.txt字典文件。

6.自定義停用字詞詞庫。

用法類似於自定義用戶同義詞庫，配置項包括:

stop words . path = class path:stop words . txt，d:/custom_stopwords_dic

7.自動檢測同義詞庫更改。

它可以自動檢測自定義用戶詞庫和自定義停用詞庫的變化。

包含類路徑下的文件和文件夾，非類路徑下的絕對路徑和相對路徑。

比如:

classpath:dic.txt，classpath:custom_dic_dir，

d:/dic_more.txt，d:/DIC_DIR，D:/DIC2_DIR，my_dic_dir，my_dic_file.txt

classpath:stopwords.txt，class path:custom _ stop words _ DIC _ dir，

d:/停用詞_更多. txt，d:/停用詞_目錄，d:/停用詞2 _目錄，停用詞_目錄，刪除. txt

8.明確指定分詞算法

分割文本時，可以明確指定特定的分割算法，例如:

WordSegmenter.seg("APDPlat應用級產品開發平臺"，分段算法。雙向最大匹配)；

可選的分段算法類型有:

正向最大匹配算法:最大匹配

ReverseMaximumMatching算法:ReverseMaximumMatching

正向最小匹配算法:最小匹配

反向最小匹配算法:反向最小匹配

雙向最大匹配算法:雙向最大匹配

雙向最小匹配算法:雙向最小匹配

雙向最大最小匹配算法:雙向最大最小匹配

全分割算法

最小分詞算法:MinimalWordCount

最大Ngram分數算法:MaxNgramScore

9、分詞效果評估

運行項目根目錄下的腳本evaluation.bat，評估分詞效果。

評估中使用的測試文本是253，3709行和* * * 2，837，490個字符。

評估結果位於目標/評估目錄中:

Corpus-text.txt是手工標註的分詞文本，用空格分隔。

Test-text.txt即測試文本，是用標點符號將corpus-text.txt分成多行的結果。

Standard-text.txt是測試文本對應的人工標註文本，作為分詞是否正確的標準。

結果-文本-***。txt，* * *是各種分詞算法的名稱，是分詞結果。

完美結果-***。txt，* * *是各種分詞算法的名稱，是分詞結果完全符合人工標註標準的文本。

錯誤-結果-***。txt，* *是各種分詞算法的名稱，是分詞結果與人工標註標準不壹致的文本。