索引技術是搜索引擎的核心技術之壹。搜索引擎要對所收集到的信息進行整理、分類、索引以產生索引庫,而中文搜索引擎的核心是分詞技術。分詞技術是利用壹定的規則和詞庫,切分出壹個句子中的詞,為自動索引做好準備。索引多采用Non—clustered方法,該技術和語言文字的理解有很大的關系,具體有如下幾點:
(1)存儲語法庫,和詞匯庫配合分出句子中的詞匯;
(2)存儲詞匯庫,要同時存儲詞匯的使用頻率和常見搭配方式;
(3)詞匯寬,應可劃分為不同的專業庫,以便於處理專業文獻;
(4)對無法分詞的句子,把每個字當作詞來處理。
索引器生成從關鍵詞到URL的關系索引表。索引表壹般使用某種形式的倒排表(inverted list),即由索引項查找相應的URL。索引表也要記錄索引項在文檔中出現的位置,以便檢索器計算索引項之間的相鄰關系或接近關系,並以特定的數據結構存儲在硬盤上。
不同的搜索引擎系統可能采用不盡相同的標引方法。例如:Webcrawler利用全文檢索技術,對網頁中每壹個單詞進行索引;Lycos只對頁名、標題以及最重要的100個註釋詞等選擇性詞語進行索引;Infoseek則提供概念檢索和詞組檢索,支持and、or、near、not等布爾運算。檢索引擎的索引方法大致可分為自動索引、手工索引和用戶登錄三類。