當前位置:成語大全網 - 英語詞典 - 數據庫中的數據檢索和搜索引擎中的信息檢索有什麽區別?要解決的核心問題和核心技術有什麽區別?

數據庫中的數據檢索和搜索引擎中的信息檢索有什麽區別?要解決的核心問題和核心技術有什麽區別?

信息檢索不等於搜索引擎。

互聯網的發展明顯促進了信息檢索技術的發展和應用,大量搜索引擎產品誕生,為網民快速獲取信息和導航網絡信息提供了良好的工具。然而,將信息檢索等同於使用搜索引擎是壹種誤解。全文信息檢索技術在搜索引擎技術中也有廣泛應用,但互聯網信息搜索和企業信息搜索是不同的。

首先是數據量。傳統信息檢索系統的通用索引數據庫多為GB級別,但互聯網web搜索需要處理數千萬網頁,搜索引擎的基本策略是采用搜索服務器集群,這對於大多數企業應用來說是不合適的,也是不必要的,不適用於企業應用。

二是內容相關性。信息太多了,查找和整理顯得尤為重要。谷歌等搜索引擎開發了網頁鏈接分析技術,該技術基於網頁在互聯網上的連接次數。而企業網站內部的頁面鏈接是由網站內容編輯發布系統決定的,鏈接數量存在偶然因素,不能作為判斷重要性的依據。真實企業應用的檢索需要基於內容的相關性排序,也就是說,將與檢索需求最相關的信息排在檢索結果的前面,這種通過鏈接分析技術的排序基本行不通。

第三是實時性。搜索引擎的索引生成和檢索服務是分離的,數據定期更新和同步。大型搜索引擎的更新周期需要以周甚至月來衡量。然而,企業信息檢索需要實時反映內外部信息的變化,搜索引擎系統機制無法滿足企業數據動態增長和修改的要求。

第四是安全。互聯網搜索引擎都是基於文件系統的,但企業應用中的內容壹般都安全集中地存儲在數據倉庫中,以保證數據安全和管理需求。

第五是個性化和智能化。由於搜索引擎數據和客戶規模的限制,相關反饋、知識檢索、知識挖掘等計算密集型智能技術難以應用,而專門針對企業的信息檢索應用可以在智能化、個性化方面走得更遠。

(InformationRetrieval),通常指文本信息檢索,包括信息存儲、組織、呈現、查詢、訪問等方面,其核心是文本信息索引和檢索。從歷史上看,信息檢索經歷了人工檢索、計算機檢索、網絡化和智能化檢索等多個發展階段。

目前,信息檢索已經發展到網絡化和智能化的階段。信息檢索的對象從獨立數據庫管理的相對封閉、穩定、壹致的信息內容,擴展到開放、動態、快速更新、分布廣泛、管理松散的Web內容;信息檢索的用戶也從最初的情報專業人員擴展到普通大眾,包括商務人士、管理人員、師生、專業人士等。他們對信息檢索從結果到方法提出了更高、更多樣化的要求。適應網絡化、智能化和個性化的需求是信息檢索技術發展的新趨勢。

信息檢索技術的熱點

◆智能檢索還是知識檢索

傳統的全文檢索技術是基於關鍵詞匹配的,往往存在檢索不全、檢索不準、檢索質量不高的現象,尤其是在網絡信息時代,通過關鍵詞匹配很難滿足人們的檢索需求。智能檢索使用分詞詞典、同義詞詞典、同音字詞典,提高檢索效果。比如用戶可以查詢“電腦”,也可以檢索到與“電腦”相關的信息;進壹步可以輔助知識層面或概念層面的查詢,通過主題詞典、上下詞典、相關詞典形成知識體系或概念網絡,給予用戶智能的知識提示,最終幫助用戶獲得最佳的檢索效果。例如,用戶可以進壹步將查詢範圍縮小到“微型計算機”、“服務器”或將查詢範圍擴大到“信息技術”或相關的“電子技術”、“軟件”、“計算機應用”等。此外,智能檢索還包括歧義信息和檢索處理,如“蘋果”是指水果還是電腦品牌,“中國人”和“中國人”的區分將通過結合歧義知識描述數據庫、全文索引、用戶檢索上下文分析和用戶相關反饋進行處理,從而高效、準確地將最需要的信息反饋給用戶。

◆知識挖掘

目前主要是指文本挖掘技術的發展,旨在幫助人們更好地查找、組織和表達信息,提取知識,以滿足信息檢索的高層次需求。知識挖掘包括抽象、分類(聚類)和相似性檢索。

自動文摘是用計算機從原始文檔中自動提取摘要。在信息檢索中,自動摘要有助於用戶快速評估檢索結果的相關性。在信息服務中,自動摘要有助於分發各種形式的內容,例如將其發送到PDA和移動電話。相似性檢索技術是基於文檔的內容特征來檢索與其相似或相關的文檔,是實現用戶個性化相關反饋的基礎,也可用於去重分析。自動分類可以基於統計或規則,通過機器學習形成預定義的分類樹,然後根據文檔的內容特征進行分類;自動聚類是根據文檔內容的相關性進行分組和合並。自動分類(聚類)在信息組織和導航中非常有用。

◆異構信息的集成檢索和全息檢索

在分布式和網絡化的信息檢索趨勢下,信息檢索系統的開放性和集成性要求越來越高,需要能夠檢索和集成不同來源和結構的信息,這是異構信息檢索技術發展的基點,包括支持各種格式的文件,如TEXT、HTML、XML、RTF、MSOffice、PDF、PS2/PS、MARC、ISO2709等。支持多語言信息檢索;支持結構化數據、半結構化數據和非結構化數據的統壹處理;以及其他開放檢索接口的集成。所謂“全息檢索”的概念就是支持所有格式和方式的檢索。從目前的實踐來看,到異構信息集成檢索的層面,基於自然語言理解的人機交互和多媒體信息檢索集成有待進壹步突破。

此外,從工程實踐的角度來看,綜合運用內存和外存的多級緩存、分布式集群和負載均衡技術也是信息檢索技術發展的重要方面。

隨著互聯網的普及和電子商務的發展,企業和個人能夠獲取和需要處理的信息量呈爆炸式增長,其中大部分是非結構化和半結構化數據。內容管理的重要性日益凸顯,信息檢索作為內容管理的核心支撐技術,將隨著內容管理的發展和普及應用到各個領域,成為人們日常工作和生活的親密夥伴。

信息檢索起源於圖書館的參考咨詢服務和文摘索引。它最早發展於19世紀下半葉,到了20世紀40年代,索引和檢索已經成為圖書館獨立的工具和用戶服務項目。

隨著1946年世界上第壹臺電子計算機的問世,計算機技術逐漸進入情報檢索領域,並與情報檢索理論緊密結合;離線批量信息檢索系統和在線實時信息檢索系統已經開發成功並商業化。20世紀60-80年代,在信息處理技術、通信技術、計算機和數據庫技術的推動下,信息檢索在教育、軍事和商業領域迅速發展,並得到廣泛應用。Dialog國際在線信息檢索系統是這壹時期信息檢索領域的代表,至今仍是世界上最著名的系統之壹。

搜索引擎工作流程

互聯網是壹個寶庫,搜索引擎是打開它的壹把鑰匙。然而,絕大多數網民缺乏搜索引擎的知識和技能。國外壹項調查顯示,約71%的人對搜索結果有不同程度的失望。作為互聯網的第二大服務,這種情況應該得到改變。

互聯網的快速發展導致了網上信息的爆炸式增長。目前全球有超過20億個網頁,每天新增730萬個網頁。在如此浩瀚的信息海洋中尋找信息就像大海撈針壹樣困難。搜索引擎只是解決這種“迷失”問題的技術。

搜索引擎的工作包括以下三個過程:

1.發現和收集互聯網中的網頁信息;

2.提取信息,組織建立索引數據庫;

3.然後根據用戶輸入的查詢關鍵字,檢索器可以快速地在索引庫中檢出文檔,評估文檔與查詢的相關性,對要輸出的結果進行排序,並將查詢結果返回給用戶。

發現和收集網絡信息

需要壹個高性能的“蜘蛛”程序來自動搜索互聯網上的信息。壹個典型的網絡蜘蛛的工作原理是查看壹個頁面並從中找到相關信息。然後它從頁面上的所有鏈接開始,繼續尋找相關信息,以此類推,直到窮盡。網絡蜘蛛需要快速和全面。為了快速瀏覽整個互聯網,網絡蜘蛛通常使用搶占式多線程技術來收集互聯網上的信息。通過使用搶占式多線程,您可以基於URL鏈接來索引網頁,啟動壹個新線程來跟蹤每個新的URL鏈接,並索引壹個新的URL起點。當然,服務器上打開的線程不可能無限膨脹,所以我們需要在服務器的正常運行和網頁的快速收集之間找到壹個平衡點。每個搜索引擎技術公司的算法可能不壹樣,但目的都是為了快速瀏覽網頁,配合後續處理。目前國內的搜索引擎技術公司,如百度的Web Spider,采用可定制的、高度可擴展的調度算法,使得搜索者在極短的時間內收集到最大量的互聯網信息,並將獲得的信息保存起來,用於建立索引數據庫和用戶檢索。

索引數據庫的建立

它關系到用戶能否最快速的找到最準確、最廣泛的信息,同時必須快速建立索引數據庫,對網絡蜘蛛抓取的網頁信息能夠非常快速的進行索引,保證信息的時效性。利用基於網頁的內容分析和超鏈接分析相結合的方法來評價網頁的相關性,可以客觀地對網頁進行排名,從而極大地保證搜索結果與用戶的查詢字符串相壹致。新浪搜索引擎在對網站數據進行索引的過程中,根據關鍵詞在網站標題、網站描述、網站URL等不同位置的出現或網站的質量等級建立索引數據庫,以保證搜索結果與用戶的查詢字符串壹致。

本文來自CSDN博客,轉載請註明出處:/xd tech/archive/2009/09/22/4579795 . aspx