當前位置:成語大全網 - 漢語詞典 - 如何使用java中文分詞組件詞

如何使用java中文分詞組件詞

請參考以下內容

1,快速體驗

在項目根目錄下運行腳本demo-word.bat可以快速體驗分詞的效果。

用法:命令[文本][輸入][輸出]

command命令的可選值有:演示、文本和文件。

演示

正文楊尚川是APDPlat應用級產品開發平臺的作者。

文件d:/text.txt d:/word.txt

出口

2.文本的分割

刪除停用詞:列表

保留停用字詞:列表

System.out.println(單詞);

輸出:

去掉停用詞:【楊尚川,apdplat,應用級別,產品,開發平臺,作者】

停用詞:【楊尚川,apdplat作者,應用級,產品,開發平臺,】

3.文件的分詞

string input = " d:/text . txt ";

string output = " d:/word . txt ";

去掉停用詞:wordsegmenter.seg(新文件(輸入),新文件(輸出));

停用詞:wordsegmenter . segwithstopwwords(新文件(輸入),新文件(輸出));

4.自定義配置文件

默認的配置文件是類路徑下的word.conf,它打包在word-x.x.jar中

自定義配置文件是類路徑下的word.local.conf,需要用戶自己提供。

如果自定義配置和默認配置相同,自定義配置將覆蓋默認配置。

配置文件編碼為UTF-8。

5.自定義用戶同義詞庫

自定義用戶同義詞庫是壹個或多個文件夾或文件,可以使用絕對路徑或相對路徑。

用戶詞庫由幾個詞典文件組成,文件編碼為UTF-8。

字典文件的格式是文本文件,壹行代表壹個單詞。

路徑可以由系統屬性或配置文件指定,多個路徑用逗號分隔。

對於類路徑下的字典文件,應該在相對路徑前添加前綴classpath:

有三種方法可以指定:

指定方法1,編程指定(高優先級):

WordConfTools.set("dic.path "," classpath:dic.txt,d:/custom _ DIC ");

dictionary factory . reload();//更改字典路徑後重新加載字典。

指定第二種方法,Java虛擬機啟動參數(中等優先級):

Java-ddic . path = class path:DIC . txt,d:/custom_dic

方法3:配置文件指定(低優先級):

使用類路徑下的word.local.conf文件指定配置信息。

dic.path=classpath:dic.txt,d:/custom_dic

如果未指定,默認情況下將使用類路徑下的dic.txt字典文件。

6.自定義停用字詞詞庫。

用法類似於自定義用戶同義詞庫,配置項包括:

stop words . path = class path:stop words . txt,d:/custom_stopwords_dic

7.自動檢測同義詞庫更改。

它可以自動檢測自定義用戶詞庫和自定義停用詞庫的變化。

包含類路徑下的文件和文件夾,非類路徑下的絕對路徑和相對路徑。

比如:

classpath:dic.txt,classpath:custom_dic_dir,

d:/dic_more.txt,d:/DIC_DIR,D:/DIC2_DIR,my_dic_dir,my_dic_file.txt

classpath:stopwords.txt,class path:custom _ stop words _ DIC _ dir,

d:/停用詞_更多. txt,d:/停用詞_目錄,d:/停用詞2 _目錄,停用詞_目錄,刪除. txt

8.明確指定分詞算法

分割文本時,可以明確指定特定的分割算法,例如:

WordSegmenter.seg("APDPlat應用級產品開發平臺",分段算法。雙向最大匹配);

可選的分段算法類型有:

正向最大匹配算法:最大匹配

ReverseMaximumMatching算法:ReverseMaximumMatching

正向最小匹配算法:最小匹配

反向最小匹配算法:反向最小匹配

雙向最大匹配算法:雙向最大匹配

雙向最小匹配算法:雙向最小匹配

雙向最大最小匹配算法:雙向最大最小匹配

全分割算法

最小分詞算法:MinimalWordCount

最大Ngram分數算法:MaxNgramScore

9、分詞效果評估

運行項目根目錄下的腳本evaluation.bat,評估分詞效果。

評估中使用的測試文本是253,3709行和* * * 2,837,490個字符。

評估結果位於目標/評估目錄中:

Corpus-text.txt是手工標註的分詞文本,用空格分隔。

Test-text.txt即測試文本,是用標點符號將corpus-text.txt分成多行的結果。

Standard-text.txt是測試文本對應的人工標註文本,作為分詞是否正確的標準。

結果-文本-***。txt,* * *是各種分詞算法的名稱,是分詞結果。

完美結果-***。txt,* * *是各種分詞算法的名稱,是分詞結果完全符合人工標註標準的文本。

錯誤-結果-***。txt,* *是各種分詞算法的名稱,是分詞結果與人工標註標準不壹致的文本。