不管妳是否使用數據庫,妳都應該將html頁面解析成標準的XML的頁面,這樣方便進行下壹步操作。如果妳只需要html的文章內容的話,還是比較簡單的。分別對html文章內容和html地址建索引,那樣妳文章命中了搜索關鍵字的話,可以把html地址也拿出來,例 Field field1 = new Field("address",address,Field.Store.YES, Field.Index.TOKENIZED);
Field field1_1 = new Field("content",content,Store.YES,Index.UN_TOKENIZED);
doc1.add(field1);
doc1.add(field1_1);
再具體點的內容,去下壹個lucene的API文檔,把field,document,indexwriter,indexsearcher,這幾個類看壹下,還是比較好懂的。
分詞器的建議使用,IKAnalyzer,在開源中文分詞器裏算是很好的,而且壹直在穩定的更新版本。