當前位置:成語大全網 - 新華字典 - 用lucene建立全文檢索需要中文分詞。

用lucene建立全文檢索需要中文分詞。

推薦Lucene做索引,我最近的項目就是用的這個。它很容易使用。

不管用不用數據庫,都要把html頁面解析成標準的XML頁面,方便接下來的操作。如果只需要html文章的內容,還是比較簡單的。分別對html文章的內容和html地址進行索引,這樣如果妳的文章命中了搜索關鍵詞,還可以取出html地址,例如field field 1 = new field(" address ",address,field.store.yes,field . index . tokenized);

Field field1_1 =新字段(" content ",內容,商店。是的,索引。UN _ TOKENIZED化);

doc 1 . add(field 1);

doc 1 . add(field 1 _ 1);

更具體地說,轉到下壹個lucene API文檔,看看Field、document、IndexWriter和IndexSearcher這些類,它們還是相對容易理解的。

分詞器推薦使用IKAnalyzer,在開源的中文分詞器中非常不錯,壹直在穩步更新版本。