如何使用java中文分詞組件

請參考以下內容

1，快速體驗

運行項目根目錄下的腳本demo-word.bat可以快速體驗分詞的效果。

用法:命令【文本】【輸入】【輸出】

command命令的可選值為:演示、文本和文件。

演示

正文楊尚川是APDPlat應用級產品開發平臺的作者。

文件d:/text.txt d:/word.txt

出口

2.文本分割

刪除停用詞:列表

保留停用詞:列表

system . out . println（words）；

輸出:

刪除停用詞:【楊尚川，apdplat，應用級別，產品，開發平臺，作者】

停用詞:【楊尚川，作者apdplat，應用級別，產品，開發平臺，】

3.文件的分詞

字符串輸入=“d:/text . txt“；

string output =“d:/word . txt“；

移除停止字:wordsegmenter.seg（新文件（輸入），新文件（輸出））；

停止字:wordsegmenter . segwithstopwwords（新文件（輸入），新文件（輸出））；

4.自定義配置文件

默認的配置文件是類路徑下的word.conf，它打包在word-x.x.jar中

用戶自定義的配置文件是類路徑下的word.local.conf，需要用戶自己提供。

如果自定義配置和默認配置相同，自定義配置將覆蓋默認配置。

配置文件編碼為UTF-8。

5.自定義用戶同義詞庫

自定義用戶同義詞庫是壹個或多個文件夾或文件，可以使用絕對路徑或相對路徑。

用戶詞典由幾個詞典文件組成，文件代碼為UTF-8。

詞典文件的格式是文本文件，壹行代表壹個單詞。

路徑可以由系統屬性或配置文件指定，多個路徑用逗號分隔。

對於類路徑下的字典文件，應該在相對路徑前添加前綴classpath:

有三種方法可以指定:

指定方法1，編程指定（高優先級）:

wordconftools . set（“DIC . path“，“classpath:dic.txt，d:/custom _ DIC“）；

dictionary factory . reload（）；//更改字典路徑後重新加載字典。

指定第二種方法，Java虛擬機啟動參數（中等優先級）:

Java-ddic . path = class path:DIC . txt，d:/custom_dic

方法3:配置文件指定（低優先級）:

使用類路徑下的文件word.local.conf指定配置信息。

dic.path=classpath:dic.txt，d:/custom_dic

如果未指定，默認情況下將使用類路徑下的dic.txt字典文件。

6.自定義停用字詞詞庫。

用法類似於自定義用戶同義詞庫，配置項目如下:

stop words . path = class path:stop words . txt，d:/custom_stopwords_dic

7.自動檢測同義詞庫更改。

它可以自動檢測自定義用戶詞庫和自定義停用詞庫的變化。

包含類路徑下的文件和文件夾、非類路徑下的絕對路徑和相對路徑。

比如:

類路徑:dic.txt，類路徑:custom_dic_dir，

d:/dic_more.txt，d:/DIC_DIR，D:/DIC2_DIR，my_dic_dir，my_dic_file.txt

類路徑:stopwords.txt，類路徑:custom_stopwords_dic_dir，

d:/停用詞_more.txt，d:/停用詞_DIR，d:/停用詞2_DIR，停用詞_DIR，remove.txt

8.明確指定分詞算法

分割文本時，您可以明確指定特定的分割算法，例如:

wordsegmenter . seg（“APD plat應用級產品開發平臺”，細分算法。雙向最大匹配）；

可選的分段算法類型有:

正向最大匹配算法:最大匹配

ReverseMaximumMatching算法:ReverseMaximumMatching

正向最小匹配算法:最小匹配

反向最小匹配算法:反向最小匹配

雙向最大匹配算法:雙向最大匹配

雙向最小匹配算法:雙向最小匹配

雙向最大最小匹配算法:雙向最大最小匹配

全分割算法

最小分詞算法:MinimalWordCount

最大Ngram得分算法:MaxNgramScore

9、分詞效果評估

運行項目根目錄下的腳本evaluation.bat，評估分詞效果。

評估中使用的測試文本為253，3709行和* * * 2，837，490個字符。

評估結果位於目標/評估目錄中:

Corpus-text.txt是由空格分隔的單詞的手動標記文本。

Test-text.txt是測試文本，它是用標點符號將corpus-text.txt分成多行的結果。

標準文本（Standard-text.txt）是測試文本對應的人工標記文本，作為分詞是否正確的標準。

結果-文本-***。txt、* * *是各種分詞算法的名稱，也就是分詞結果。

完美的結果。txt、* * *是各種分詞算法的名稱，是分詞結果完全符合人工標註標準的文本。

錯誤結果***。txt、* *是各種分詞算法的名稱，是分詞結果與人工標註標準不壹致的文本。