當前位置:成語大全網 - 新華字典 - 倒排索引的更新策略

倒排索引的更新策略

更新策略有四種 :完全重建、再合並策略、原地更新策略以及混合策略。 完全重建策略:當新增文檔到達壹定數量,將新增文檔和原先的老文檔整合,然後利用靜態索引創建方法對所有文檔重建索引,新索引建立完成後老索引會被遺棄。此法代價高,但是主流商業搜索引擎壹般是采用此方式來維護索引的更新(這句話是書中原話) 再合並策略:當新增文檔進入系統,解析文檔,之後更新內存中維護的臨時索引,文檔中出現的每個單詞,在其倒排表列表末尾追加倒排表列表項;壹旦臨時索引將指定內存消耗光,即進行壹次索引合並,這裏需要倒排文件裏的倒排列表存放順序已經按照索引單詞字典順序由低到高排序,這樣直接順序掃描合並即可。其缺點是:因為要生成新的倒排索引文件,所以對老索引中的很多單詞,盡管其在倒排列表並未發生任何變化,也需要將其從老索引中取出來並寫入新索引中,這樣對磁盤消耗是沒必要的。 原地更新策略:試圖改進再合並策略,在原地合並倒排表,這需要提前分配壹定的空間給未來插入,如果提前分配的空間不夠了需要遷移。實際顯示,其索引更新的效率比再合並策略要低。 混合策略:出發點是能夠結合不同索引更新策略的長處,將不同索引更新策略混合,以形成更高效的方法。