當前位置:成語大全網 - 書法字典 - 如何使用java中文分詞組件

如何使用java中文分詞組件

請參考以下內容

1,快速體驗

運行項目根目錄下的腳本demo-word.bat可以快速體驗分詞的效果。

用法:命令【文本】【輸入】【輸出】

command命令的可選值為:演示、文本和文件。

演示

正文楊尚川是APDPlat應用級產品開發平臺的作者。

文件d:/text.txt d:/word.txt

出口

2.文本分割

刪除停用詞:列表

保留停用詞:列表

system . out . println(words);

輸出:

刪除停用詞:【楊尚川,apdplat,應用級別,產品,開發平臺,作者】

停用詞:【楊尚川,作者apdplat,應用級別,產品,開發平臺,】

3.文件的分詞

字符串輸入=“d:/text . txt“;

string output =“d:/word . txt“;

移除停止字:wordsegmenter.seg(新文件(輸入),新文件(輸出));

停止字:wordsegmenter . segwithstopwwords(新文件(輸入),新文件(輸出));

4.自定義配置文件

默認的配置文件是類路徑下的word.conf,它打包在word-x.x.jar中

用戶自定義的配置文件是類路徑下的word.local.conf,需要用戶自己提供。

如果自定義配置和默認配置相同,自定義配置將覆蓋默認配置。

配置文件編碼為UTF-8。

5.自定義用戶同義詞庫

自定義用戶同義詞庫是壹個或多個文件夾或文件,可以使用絕對路徑或相對路徑。

用戶詞典由幾個詞典文件組成,文件代碼為UTF-8。

詞典文件的格式是文本文件,壹行代表壹個單詞。

路徑可以由系統屬性或配置文件指定,多個路徑用逗號分隔。

對於類路徑下的字典文件,應該在相對路徑前添加前綴classpath:

有三種方法可以指定:

指定方法1,編程指定(高優先級):

wordconftools . set(“DIC . path“,“classpath:dic.txt,d:/custom _ DIC“);

dictionary factory . reload();//更改字典路徑後重新加載字典。

指定第二種方法,Java虛擬機啟動參數(中等優先級):

Java-ddic . path = class path:DIC . txt,d:/custom_dic

方法3:配置文件指定(低優先級):

使用類路徑下的文件word.local.conf指定配置信息。

dic.path=classpath:dic.txt,d:/custom_dic

如果未指定,默認情況下將使用類路徑下的dic.txt字典文件。

6.自定義停用字詞詞庫。

用法類似於自定義用戶同義詞庫,配置項目如下:

stop words . path = class path:stop words . txt,d:/custom_stopwords_dic

7.自動檢測同義詞庫更改。

它可以自動檢測自定義用戶詞庫和自定義停用詞庫的變化。

包含類路徑下的文件和文件夾、非類路徑下的絕對路徑和相對路徑。

比如:

類路徑:dic.txt,類路徑:custom_dic_dir,

d:/dic_more.txt,d:/DIC_DIR,D:/DIC2_DIR,my_dic_dir,my_dic_file.txt

類路徑:stopwords.txt,類路徑:custom_stopwords_dic_dir,

d:/停用詞_more.txt,d:/停用詞_DIR,d:/停用詞2_DIR,停用詞_DIR,remove.txt

8.明確指定分詞算法

分割文本時,您可以明確指定特定的分割算法,例如:

wordsegmenter . seg(“APD plat應用級產品開發平臺”,細分算法。雙向最大匹配);

可選的分段算法類型有:

正向最大匹配算法:最大匹配

ReverseMaximumMatching算法:ReverseMaximumMatching

正向最小匹配算法:最小匹配

反向最小匹配算法:反向最小匹配

雙向最大匹配算法:雙向最大匹配

雙向最小匹配算法:雙向最小匹配

雙向最大最小匹配算法:雙向最大最小匹配

全分割算法

最小分詞算法:MinimalWordCount

最大Ngram得分算法:MaxNgramScore

9、分詞效果評估

運行項目根目錄下的腳本evaluation.bat,評估分詞效果。

評估中使用的測試文本為253,3709行和* * * 2,837,490個字符。

評估結果位於目標/評估目錄中:

Corpus-text.txt是由空格分隔的單詞的手動標記文本。

Test-text.txt是測試文本,它是用標點符號將corpus-text.txt分成多行的結果。

標準文本(Standard-text.txt)是測試文本對應的人工標記文本,作為分詞是否正確的標準。

結果-文本-***。txt、* * *是各種分詞算法的名稱,也就是分詞結果。

完美的結果。txt、* * *是各種分詞算法的名稱,是分詞結果完全符合人工標註標準的文本。

錯誤結果***。txt、* *是各種分詞算法的名稱,是分詞結果與人工標註標準不壹致的文本。