當前位置:成語大全網 - 成語詞典 - 用lucene建立全文檢索,要求中文分詞

用lucene建立全文檢索,要求中文分詞

索引的話,推薦使用lucene,我最近的項目就是用這個,蠻好用。

不管妳是否使用數據庫,妳都應該將html頁面解析成標準的XML的頁面,這樣方便進行下壹步操作。如果妳只需要html的文章內容的話,還是比較簡單的。分別對html文章內容和html地址建索引,那樣妳文章命中了搜索關鍵字的話,可以把html地址也拿出來,例 Field field1 = new Field("address",address,Field.Store.YES, Field.Index.TOKENIZED);

Field field1_1 = new Field("content",content,Store.YES,Index.UN_TOKENIZED);

doc1.add(field1);

doc1.add(field1_1);

再具體點的內容,去下壹個lucene的API文檔,把field,document,indexwriter,indexsearcher,這幾個類看壹下,還是比較好懂的。

分詞器的建議使用,IKAnalyzer,在開源中文分詞器裏算是很好的,而且壹直在穩定的更新版本。