法壹:
在代碼中構造set集合,將所有的停用詞就加到set集合中,建議采用TreeSet,然後對於文本的分詞結果,去查詢set集合,如果出現,說明是停用詞,過濾掉即可。
法二:
使用第三方的jar包解決,比如IKanalyzer來加載擴展詞典和停用詞典,然後使用IKanalyzer來進行分詞,之後過濾即可。