當前位置:成語大全網 - 成語詞典 - 如何使用lucene中的擴展詞典

如何使用lucene中的擴展詞典

妳可以使用壹個開源的中文分詞包MMAnalyzer,網上可以下到。在程序中引入此包。這個分詞包的大概作用是:

1、支持英文、數字、中文(簡體)混合分詞

2、常用的數量和人名的匹配

3、超過22萬詞的詞庫整理

4、實現正向最大匹配算法

5、詞典的動態擴展

6、分詞效率: 第壹次分詞需要1-2秒(讀取詞典),之後速度基本與Lucene自帶分詞器持平。

具體方法:

Analyzer analyzer = new MMAnalyzer();

然後用這個analyzer的analyzer.tokenStream()來對某壹個字符串進行分詞(比如“中華人民***和國”,最終可以得出分詞結果,有固定的類來表示結果,具體怎麽寫看其文檔。

從這個例子來看,結果是“中華” “人民” “***和國”,利用某些類來叠代得出每壹個詞並存入Map中做key,每叠代出壹個分詞結果就在map中查找壹下,若已有此詞為key,則在value裏加1。這樣就實現了妳的需求。