信息檢索模型的核心問題是檢測哪些文獻相關
信息檢索不等於搜索引擎。互聯網的發展明顯地促進了信息檢索技術的發展和應用,壹大批搜索引擎產品誕生,為網民提供了很好的快速信息獲取和網絡信息導航工具,但是將信息檢索等同於使用搜索引擎就陷入了誤區。搜索引擎技術中也普遍采用了全文信息檢索技術,但互聯網信息搜索和企業信息搜索是不同的。壹是數據量。傳統信息檢索系統壹般索引庫規模多在GB級,但互聯網網頁搜索需要處理幾千萬上億的網頁,搜索引擎的基本策略都是采用檢索服務器群集,對大多數企業應用是不合適和不必要的,並不適用於企業應用。二是內容相關性。信息太多,查準和排序就特別重要,Google等搜索引擎發展了網頁鏈接分析技術,根據互聯網上網頁被連接次數作為重要性評判的依據。但企業網站內部的網頁鏈接由網站內容采編發布系統決定,其鏈接次數存在偶然因素,不能作為判別重要性的依據。真正的企業應用的檢索要求基於內容的相關性排序,就是說,和檢索要求最相關的信息排在檢索結果的前面,鏈接分析技術此種排序基本不起作用。三是實時性。搜索引擎的索引生成和檢索服務是分開的,周期性更新和同步數據,大的搜索引擎的更新周期需要以周乃至月度量;而企業信息檢索需要實時反映內外信息變化,搜索引擎系統機制並不能適應企業中動態性數據增長和修改的要求。四是安全性。互聯網搜索引擎都基於文件系統,但企業應用中內容壹般均會安全和集中地存放在數據倉庫中以保證數據安全和管理的要求。五是個性化和智能化。由於搜索引擎數據和客戶規模的限制,相關反饋、知識檢索、知識挖掘等計算密集的智能技術很難應用,而專門針對企業的信息檢索應用能在智能化和個性走得更遠。(InformationRetrieval),通常指文本信息檢索,包括信息的存儲、組織、表現、查詢、存取等各個方面,其核心為文本信息的索引和檢索。從歷史上看,信息檢索經歷了手工檢索、計算機檢索到目前網絡化、智能化檢索等多個發展階段。目前,信息檢索已經發展到網絡化和智能化的階段。信息檢索的對象從相對封閉、穩定壹致、由獨立數據庫集中管理的信息內容擴展到開放、動態、更新快、分布廣泛、管理松散的Web內容;信息檢索的用戶也由原來的情報專業人員擴展到包括商務人員、管理人員、教師學生、各專業人士等在內的普通大眾,他們對信息檢索從結果到方式提出了更高、樣化的要求。適應網絡化、智能化以及個性化的需要是目前信息檢索技術發展的新趨勢。信息檢索技術的熱點◆智能檢索或知識檢索傳統的全文檢索技術基於關鍵詞匹配進行檢索,往往存在查不全、查不準、檢索質量不高的現象,特別是在網絡信息時代,利用關鍵詞匹配很難滿足人們檢索的要求。智能檢索利用分詞詞典、同義詞典,同音詞典改善檢索效果,比如用戶查詢“計算機”,與“電腦”相關的信息也能檢索出來;進壹步還可在知識層面或者說概念層面上輔助查詢,通過主題詞典、上下位詞典、相關同級詞典,形成壹個知識體系或概念網絡,給予用戶智能知識提示,最終幫助用戶獲得最佳的檢索效果,比如用戶可以進壹步縮小查詢範圍至“微機”、“服務器”或擴大查詢至“信息技術”或查詢相關的“電子技術”、“軟件”、“計算機應用”等範疇。另外,智能檢索還包括歧義信息和檢索處理,如“蘋果”,究竟是指水果還是電腦品牌,“華人”與“中華人民***和國”的區分,將通過歧義知識描述庫、全文索引、用戶檢索上下文分析以及用戶相關性反饋等技術結合處理,高效、準確地反饋給用戶最需要的信息。◆知識挖掘目前主要指文本挖掘技術的發展,目的是幫助人們更好的發現、組織、表示信息,提取知識,滿足信息檢索的高層次需要。知識挖掘包括摘要、分類(聚類)和相似性檢索等方面。自動摘要就是利用計算機自動地從原始文獻中提取文摘。在信息檢索中,自動摘要有助於用戶快速評價檢索結果的相關程度,在信息服務中,自動摘要有助於多種形式的內容分發,如發往PDA、手機等。相似性檢索技術基於文檔內容特征檢索與其相似或相關的文檔,是實現用戶個性化相關反饋的基礎,也可用於去重分析。自動分類可基於統計或規則,經過機器學習形成預定義分類樹,再根據文檔的內容特征將其歸類;自動聚類則是根據文檔內容的相關程度進行分組歸並。自動分類(聚類)在信息組織、導航方面非常有用。◆異構信息整合檢索和全息檢索在信息檢索分布化和網絡化的趨勢下,信息檢索系統的開放性和集成性要求越來越高,需要能夠檢索和整合不同來源和結構的信息,這是異構信息檢索技術發展的基點,包括支持各種格式化文件,如TEXT、HTML、XML、RTF、MSOffice、PDF、PS2/PS、MARC、ISO2709等處理和檢索;支持多語種信息的檢索;支持結構化數據、半結構化數據及非結構化數據的統壹處理;和關系數據庫檢索的無縫集成以及其他開放檢索接口的集成等。所謂“全息檢索”的概念就是支持壹切格式和方式的檢索,從目前實踐來講,發展到異構信息整合檢索的層面,基於自然語言理解的人機交互以及多媒體信息檢索整合等方面尚有待取得進壹步突破。另外,從工程實踐角度,綜合采用內存和外部存儲的多級緩存、分布式群集和負載均衡技術也是信息檢索技術發展的重要方面。隨著互聯網的普及和電子商務的發展,企業和個人可獲取、需處理的信息量呈爆發式增長,而且其中絕大部分都是非結構化和半結構化數據。內容管理的重要性日益凸現,而信息檢索作為內容管理的核心支撐技術,隨著內容管理的發展和普及,亦將應用到各個領域,成為人們日常工作生活的密切夥伴。信息檢索起源於圖書館的參考咨詢和文摘索引工作,從19世紀下半葉首先開始發展,至20世紀40年代,索引和檢索成已為圖書館獨立的工具和用戶服務項目。隨著1946年世界上第壹臺電子計算機問世,計算機技術逐步走進信息檢索領域,並與信息檢索理論緊密結合起來;脫機批量情報檢索系統、聯機實時情報檢索系統相繼研制成功並商業化,20世紀60年代到80年代,在信息處理技術、通訊技術、計算機和數據庫技術的推動下,信息檢索在教育、軍事和商業等各領域高速發展,得到了廣泛的應用。Dialog國際聯機情報檢索系統是這壹時期的信息檢索領域的代表,至今仍是世界上最著名的系統之壹。搜索引擎工作流程互聯網是壹個寶庫,搜索引擎是打開寶庫的壹把鑰匙。然而,絕大多數網民在搜索引擎的相關知識及使用技巧上能力不足。國外的壹次調查結果顯示,約有71%的人對搜索的結果感到不同程度的失望。作為互聯網的第二大服務,這種狀況應該改變。互聯網的迅速發展,導致了網上信息的爆炸性增長。全球目前的網頁超過20億,每天新增加730萬網頁。要在如此浩瀚的信息海洋裏尋找信息,就像“大海撈針”壹樣困難。搜索引擎正是為了解決這個“迷航”問題而出現的技術。搜索引擎的工作包括如下三個過程:1.在互聯中發現、搜集網頁信息;2.對信息進行提取和組織建立索引庫;3.再由檢索器根據用戶輸入的查詢關字,在索引庫中快速檢出文檔,進行文檔與查詢的相關度評價,對將要輸出的結果進行排序,並將查詢結果返回給用戶。發現、搜集網頁信息需要有高性能的“網絡蜘蛛”程序(Spider)去自動地在互聯網中搜索信息。壹個典型的網絡蜘蛛工作的方式,是查看壹個頁面,並從中找到相關信息,然後它再從該頁面的所有鏈接中出發,繼續尋找相關的信息,以此類推,直至窮盡。網絡蜘蛛要求能夠快速、全面。網絡蜘蛛為實現其快速地瀏覽整個互聯網,通常在技術上采用搶先式多線程技術實現在網上聚集信息。通過搶先式多線程的使用,妳能索引壹個基於URL鏈接的Web頁面,啟動壹個新的線程跟隨每個新的URL鏈接,索引壹個新的URL起點。當然在服務器上所開的線程也不能無限膨脹,需要在服務器的正常運轉和快速收集網頁之間找壹個平衡點。在算法上各個搜索引擎技術公司可能不盡相同,但目的都是快速瀏覽Web頁和後續過程相配合。目前國內的搜索引擎技術公司中,比如百度公司的網絡蜘蛛采用了可定制、高擴展性的調度算法使得搜索器能在極短的時間內收集到最大數量的互聯網信息,並把所獲得的信息保存下來以備建立索引庫和用戶檢索。索引庫的建立關系到用戶能否最迅速地找到最準確、最廣泛的信息,同時索引庫的建立也必須迅速,對網絡蜘蛛抓來的網頁信息極快地建立索引,保證信息的及時性。對網頁采用基於網頁內容分析和基於超鏈分析相結合的方法進行相關度評價,能夠客觀地對網頁進行排序,從而極大限度地保證搜索出的結果與用戶的查詢串相壹致。新浪搜索引擎對網站數據建立索引的過程中采取了按照關鍵詞在網站標題、網站描述、網站URL等不同位置的出現或網站的質量等級等建立索引庫,從而保證搜索出的結果與用戶的查詢串相壹致。本文來自CSDN博客,轉載請標明出處:4579795.aspx