1,快速體驗
運行項目根目錄下的腳本demo-word.bat可以快速體驗分詞的效果。
用法:命令【文本】【輸入】【輸出】
command命令的可選值為:演示、文本和文件。
演示
正文楊尚川是APDPlat應用級產品開發平臺的作者。
文件d:/text.txt d:/word.txt
出口
2.文本分割
刪除停用詞:列表
保留停用詞:列表
system . out . println(words);
輸出:
刪除停用詞:【楊尚川,apdplat,應用級別,產品,開發平臺,作者】
停用詞:【楊尚川,作者apdplat,應用級別,產品,開發平臺,】
3.文件的分詞
字符串輸入=“d:/text . txt“;
string output =“d:/word . txt“;
移除停止字:wordsegmenter.seg(新文件(輸入),新文件(輸出));
停止字:wordsegmenter . segwithstopwwords(新文件(輸入),新文件(輸出));
4.自定義配置文件
默認的配置文件是類路徑下的word.conf,它打包在word-x.x.jar中
用戶自定義的配置文件是類路徑下的word.local.conf,需要用戶自己提供。
如果自定義配置和默認配置相同,自定義配置將覆蓋默認配置。
配置文件編碼為UTF-8。
5.自定義用戶同義詞庫
自定義用戶同義詞庫是壹個或多個文件夾或文件,可以使用絕對路徑或相對路徑。
用戶詞典由幾個詞典文件組成,文件代碼為UTF-8。
詞典文件的格式是文本文件,壹行代表壹個單詞。
路徑可以由系統屬性或配置文件指定,多個路徑用逗號分隔。
對於類路徑下的字典文件,應該在相對路徑前添加前綴classpath:
有三種方法可以指定:
指定方法1,編程指定(高優先級):
wordconftools . set(“DIC . path“,“classpath:dic.txt,d:/custom _ DIC“);
dictionary factory . reload();//更改字典路徑後重新加載字典。
指定第二種方法,Java虛擬機啟動參數(中等優先級):
Java-ddic . path = class path:DIC . txt,d:/custom_dic
方法3:配置文件指定(低優先級):
使用類路徑下的文件word.local.conf指定配置信息。
dic.path=classpath:dic.txt,d:/custom_dic
如果未指定,默認情況下將使用類路徑下的dic.txt字典文件。
6.自定義停用字詞詞庫。
用法類似於自定義用戶同義詞庫,配置項目如下:
stop words . path = class path:stop words . txt,d:/custom_stopwords_dic
7.自動檢測同義詞庫更改。
它可以自動檢測自定義用戶詞庫和自定義停用詞庫的變化。
包含類路徑下的文件和文件夾、非類路徑下的絕對路徑和相對路徑。
比如:
類路徑:dic.txt,類路徑:custom_dic_dir,
d:/dic_more.txt,d:/DIC_DIR,D:/DIC2_DIR,my_dic_dir,my_dic_file.txt
類路徑:stopwords.txt,類路徑:custom_stopwords_dic_dir,
d:/停用詞_more.txt,d:/停用詞_DIR,d:/停用詞2_DIR,停用詞_DIR,remove.txt
8.明確指定分詞算法
分割文本時,您可以明確指定特定的分割算法,例如:
wordsegmenter . seg(“APD plat應用級產品開發平臺”,細分算法。雙向最大匹配);
可選的分段算法類型有:
正向最大匹配算法:最大匹配
ReverseMaximumMatching算法:ReverseMaximumMatching
正向最小匹配算法:最小匹配
反向最小匹配算法:反向最小匹配
雙向最大匹配算法:雙向最大匹配
雙向最小匹配算法:雙向最小匹配
雙向最大最小匹配算法:雙向最大最小匹配
全分割算法
最小分詞算法:MinimalWordCount
最大Ngram得分算法:MaxNgramScore
9、分詞效果評估
運行項目根目錄下的腳本evaluation.bat,評估分詞效果。
評估中使用的測試文本為253,3709行和* * * 2,837,490個字符。
評估結果位於目標/評估目錄中:
Corpus-text.txt是由空格分隔的單詞的手動標記文本。
Test-text.txt是測試文本,它是用標點符號將corpus-text.txt分成多行的結果。
標準文本(Standard-text.txt)是測試文本對應的人工標記文本,作為分詞是否正確的標準。
結果-文本-***。txt、* * *是各種分詞算法的名稱,也就是分詞結果。
完美的結果。txt、* * *是各種分詞算法的名稱,是分詞結果完全符合人工標註標準的文本。
錯誤結果***。txt、* *是各種分詞算法的名稱,是分詞結果與人工標註標準不壹致的文本。