1、支持英文、數字、中文(簡體)混合分詞
2、常用的數量和人名的匹配
3、超過22萬詞的詞庫整理
4、實現正向最大匹配算法
5、詞典的動態擴展
6、分詞效率: 第壹次分詞需要1-2秒(讀取詞典),之後速度基本與Lucene自帶分詞器持平。
具體方法:
Analyzer analyzer = new MMAnalyzer();
然後用這個analyzer的analyzer.tokenStream()來對某壹個字符串進行分詞(比如“中華人民***和國”,最終可以得出分詞結果,有固定的類來表示結果,具體怎麽寫看其文檔。
從這個例子來看,結果是“中華” “人民” “***和國”,利用某些類來叠代得出每壹個詞並存入Map中做key,每叠代出壹個分詞結果就在map中查找壹下,若已有此詞為key,則在value裏加1。這樣就實現了妳的需求。