網絡爬蟲(在FOAF社區也稱為網絡蜘蛛、網絡機器人,更經常被稱為網絡追逐者)是壹種根據特定規則自動抓取萬維網上信息的程序或腳本。其他不常用的名稱有螞蟻、自動索引、模擬器或蠕蟲。爬蟲自動遍歷網站頁面並下載所有內容。
網絡爬蟲不常用的其他名稱有螞蟻、自動索引、模擬器或蠕蟲。隨著網絡的快速發展,萬維網已經成為大量信息的載體,如何有效地提取和利用這些信息成為壹個巨大的挑戰。搜索引擎,如傳統的通用搜索引擎AltaVista、Yahoo!而谷歌作為輔助人們檢索信息的工具,成為用戶訪問萬維網的入口和向導。然而,這些通用搜索引擎也有壹些局限性,例如:
(1)來自不同領域和背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎返回的結果包含大量用戶不關心的網頁。
(2)通用搜索引擎的目標是覆蓋盡可能多的網絡,有限的搜索引擎服務器資源與無限的網絡數據資源之間的矛盾將進壹步加深。
(3)隨著萬維網數據形式的豐富和網絡技術的不斷發展,出現了大量不同的數據,如圖片、數據庫、音頻、視頻和多媒體等,而通用搜索引擎往往無力找到和獲取這些信息密集型和結構化的數據。
(4)大多數通用搜索引擎提供基於關鍵詞的檢索,難以支持基於語義信息的查詢。
為了解決上述問題,定向抓取相關網絡資源的聚焦爬蟲應運而生。聚焦爬蟲是壹個自動下載網頁的程序。它根據既定的爬行目標有選擇地訪問萬維網上的網頁和相關鏈接,以獲取所需的信息。與壹般爬行動物(壹般?Purpose web crawler),focus crawler不追求大覆蓋範圍,而是旨在抓取與特定主題內容相關的網頁,並為面向主題的用戶查詢準備數據資源。