什麽是搜索引擎，它是如何工作的？

壹、什麽是搜索引擎？

互聯網上有數百億個公共網頁。即使是最狂熱的沖浪者，也不會訪問所有的頁面，只會看到其中的壹小部分，不會在這浩瀚的網絡海洋中找到妳精彩卻又微小的角落。當然，妳可以宣傳妳的存在，把妳的網址用大字刻在身上，然後裸體走過白宮草坪，但妳必須確保媒體就在那裏，正在觀看。與其這樣做，不如了解壹下搜索引擎是如何工作的。如何選擇和使用“關鍵詞”(關鍵詞)等等。

本文的目的是讓很多頁面設計者在了解搜索引擎的基礎上，找到如何讓自己的頁面在搜索引擎返回的列表中獲得良好的排列層次。

“搜索引擎”壹詞壹般指真實的搜索引擎(即全文搜索引擎)和目錄(即基於目錄的分類搜索引擎)。其實它們是不壹樣的，區別主要在於返回的搜索結果列表是如何排列的。

1，目錄

目錄(如雅虎！)返回的列表是手動排列的。

這種引擎提供了壹個按類別排列的網站手冊目錄，每個類別下面排列著屬於這個類別的網站的站點名稱和URL鏈接，然後記錄壹些摘要信息，對網站進行概述性的介紹(摘要可能是妳過去提交的，也可能是引擎站點的編輯對妳的站點做出的評價)。人們在搜索的時候，會根據目錄對應的類別進行搜索。

這種引擎往往伴隨著網站查詢功能，也叫網站檢索，提供壹個文本輸入框和壹個按鈕。我們可以在文本框中輸入想要查找的字、詞或短語，然後點擊按鈕，就會在目錄中找到相關的站名、網址和內容摘要，並將找到的內容列表發送出去。目前國內的Sohoo，常春藤等。都用這種搜索方法。

2.搜索引擎

搜索引擎(如HotBot)會自動創建列表。

搜索引擎看起來很像目錄網站查詢，也提供了壹個文字輸入框和按鈕，使用方法壹樣，有的還提供分類目錄，但本質上是不同的。

在目錄的數據庫中，收集並保存了各個網站的網站名稱、網址和內容摘要；在搜索引擎的數據庫中，每個網站每個頁面的全部內容都被收集保存，範圍要大得多。

搜索引擎以全文檢索的形式工作。全文檢索的結果不是網站名稱、網址和內容摘要，而是與妳輸入的關鍵詞相關的網頁地址和小段。在這段文字中，可能沒有妳輸入的關鍵詞，它只是壹個網頁的第壹段，甚至是壹個無法理解的標記，但是這個網頁中壹定有妳輸入的關鍵詞或者相關詞匯。比如網站查詢可以查到網上有哪些報紙，比如《文匯報》、《大公報》，而全文搜索可以在網上查到這些報紙的每壹篇文章中的詞匯。

3.結合兩者的搜索引擎。

壹些搜索引擎也提供目錄。搜索引擎中包含的目錄通常質量很高，在那裏可以找到許多好網站。因為即使妳過去提交了妳的站點，也不能保證它會被添加到目錄中。他們專註於那些已經存在於其他目錄中的網站，並有選擇地尋找有吸引力的網站添加到他們自己的目錄中。

搜索引擎和目錄都有自己不可替代的作用。目錄相對簡單。想要獲得壹個好的編排水平，除了打造壹個內容好的高質量站點，沒有別的辦法。搜索引擎要復雜得多。他們隨時自動索引許多網站的最新頁面，所以他們經常能找到目錄無法獲得的信息。如果妳改變了妳的頁面，搜索引擎會隨時發現這種變化，並重新排列妳在列表中的位置。而目錄是做不到的。下面專門介紹搜索引擎的工作原理，以及如何提高在搜索引擎列表中的排名位置。

參考資料:

/CPC/build web/search 101 . htm

根據信息收集和服務提供方法的不同，搜索引擎系統可以分為三類:

1.目錄搜索引擎:手動或半自動收集信息。編輯看完信息後，人工形成信息匯總，將信息放入預定的分類框架中。大部分信息是面向網站的，提供目錄瀏覽服務和直接檢索服務。這種搜索引擎因人的智能而具有信息準確、導航質量高的優勢。缺點是需要人工幹預，維護量大，信息量少，信息更新不及時。這類搜索引擎的代表有:雅虎、LookSmart、Open Directory、Go Guide等。

2.機器人搜索引擎(Robot search engine):壹個名為Spider的機器人程序按照壹定的策略自動收集和發現互聯網中的信息，索引器為收集到的信息建立索引，檢索器根據用戶的查詢輸入搜索索引數據庫，並將查詢結果返回給用戶。服務模式為網頁全文檢索服務。這種搜索引擎的優點是信息量大，更新及時，不需要人工幹預。缺點是返回的信息太多，有很多不相關的信息，用戶必須從結果中篩選。這類搜索引擎的代表有:AltaVista、北極光、Excite、Infoseek、Inktomi、FAST、Lycos、Google；國內代表有:“天網”、悠遊、OpenFind等。

3.元搜索引擎:這種搜索引擎沒有自己的數據，而是將用戶的查詢請求同時提交給多個搜索引擎，經過反復剔除和重新排序後，將返回的結果作為自己的結果返回。服務模式是面向web的全文檢索。這種搜索引擎的優點是返回的信息更全面，缺點是不能充分利用所用搜索引擎的功能，用戶需要做更多的篩選。這類搜索引擎的代表有網絡爬蟲、信息市場等。

……

主要技能

搜索引擎由四部分組成:搜索器、索引器、檢索器和用戶界面。

1.檢查官

搜索者的功能是在互聯網上漫遊，尋找和收集信息。它通常是壹個晝夜不停運行的計算機程序。它應該盡可能多、盡可能快地收集各種新信息。同時，由於網上信息更新快，也要定期更新已經收集的舊信息，避免死連接和無效連接。目前，有兩種收集信息的策略:

●從壹組初始URL開始，沿著這些URL中的超鏈接，可以以寬度優先、深度優先或啟發式的方式在互聯網中循環查找信息。這些起始網址可以是任意網址，但往往是壹些非常受歡迎的有很多鏈接的網站(比如Yahoo！)。

●按域名、IP地址或國家域名劃分網頁空間，每個搜索者負責壹個子空間的窮舉搜索。

搜索者收集各種類型的信息，包括HTML、XML、新聞組文章、FTP文件、文字處理文檔和多媒體信息。

搜索器通常由分布式和並行計算技術實現，以提高信息發現和更新的速度。商業搜索引擎的信息發現量每天可達數百萬網頁。

2.分度器

索引器的作用是理解搜索者搜索到的信息，從中提取索引項，用它們來表示文檔，生成文檔庫的索引表。

索引項有兩種:客觀項與文檔的語義內容無關，如作者姓名、URL、更新時間、代碼、長度、鏈接流行度等。內容索引項用於反映文檔的內容，如關鍵詞及其權重、短語、單詞等。內容索引項可分為單個索引項和多個索引項(或短語索引項)。單索引項是英語的英文單詞，因為單詞之間有自然的分隔符(空格)，所以更容易提取；對於漢語等連續書寫語言，分詞是必要的。

在搜索引擎中，通常需要給單個索引項分配壹個權重，以表示該索引項對文檔的區分程度，並計算查詢結果的相關度。使用的方法壹般包括統計學、信息論和概率論。短語索引項的提取方法有統計學、概率論和語言學。

索引表壹般使用某種形式的倒排表，即按索引項搜索對應的文檔。索引表還可以記錄索引項在文檔中出現的位置，使得搜索者可以計算索引項之間的接近度。

索引器可以使用集中式索引算法或分布式索引算法。當數據量較大時，需要實現即時索引，否則會跟不上信息量的快速增加。索引算法對索引器的性能影響很大，比如大規模峰值查詢的響應速度。搜索引擎的有效性很大程度上取決於索引的質量。

3.取回的人

檢索器的功能是根據用戶的查詢，在索引數據庫中快速檢出文檔，評估文檔與查詢的相關性，對結果進行排序輸出，並實現某種用戶相關性反饋機制。

檢索者常用的信息檢索模型有四種:集合論模型、代數模型、概率模型和混合模型。

4.用戶界面

用戶界面的功能是輸入用戶查詢，顯示查詢結果，並提供用戶相關反饋機制。主要目的是方便用戶使用搜索引擎，高效、多途徑地從搜索引擎中獲取有效、及時的信息。用戶界面的設計和實現采用人機交互的理論和方法，充分適應人類的思維習慣。用戶輸入界面可以分為簡單界面和復雜界面。

簡單界面只提供壹個文本框供用戶輸入查詢字符串；復雜的接口允許用戶限制查詢，比如邏輯操作(AND、OR、NOT+、-)、鄰近性(相鄰、近)、域名範圍(如。edu。com)、位置(如標題、內容)、信息時間、長度等。目前，壹些公司和機構正在考慮制定查詢選項的標準。