李燦
(華南理工大學圖書館 510641)
摘要:本文探索了在INTERNET網上實現全文檢索的技術。計論了從網上信息的標引、分類等預處理到組織信息檢索的過程,並就智能檢索技術的發展進行了闡述。
關鍵詞:信息檢索 因特網 全文檢索
壹、 前言
Internet網是目前全球最大的、最有影響力的信息網絡,它將政府、學校、圖書館、商務場所、研究機構和其它組織中的局域網(LAN)集成為壹個單壹的、龐大的、跨越全球的通訊網絡。越來越多的人們利用這壹網絡與世界各地的人進行交流。如何利用Internet網獲取有價值的信息,已成為科研人員必備的壹項基本技能。
因特網是壹個開放型的巨大的信息資源庫,擁有上千萬臺以上的主機和過億的用戶;並且由於因特網信息蘊含的無限豐富,信息組織、表達的直觀、生動以及信息服務的方便性和多樣性,愈來愈多的信息搜索者被其獨特的魅力所吸引。而在近幾年,因特網用戶的數量更是成倍地增長。可見,因特網檢索已成為實際上最普及、最受關註、最常涉及的信息檢索領域。
二、 概述
網上的信息具有數量大、形式多、內容廣、專業性不強等特點,給情報搜集、分類、檢索等工作帶來了新的問題和挑戰。如何充分利用因特網上的信息資源正成為情報科學研究者所關註的熱點。全文信息檢索就是概據Internet信息的特點而發展起來的壹種檢索方式。它主要指研究對整個文檔信息的表示,存儲、組織和訪問,即根據用戶的查詢要求,從信息數據庫中檢索出相關信息資料。
全文檢索的中心環節是文件內容表達、信息查詢的獲得以及相關信息的匹配。壹個好的全文信息檢索系統不僅要求將輸出信息進行相關性排列,還應該能夠根據用戶的意圖、興趣和特點自適應和智能化地調整匹配機制,獲得用戶滿意的檢索輸出。
要實現全文檢索,首先必須對WEB信息進行預處理。
三、 WEB信息的預處理
信息預處理的主要功能是過濾文件系統信息,為文件系統的表達提供壹種滿意的索引輸出。其基本目的是為了獲取最優的索引記錄,使用戶能很容易地檢索到所需信息。
(1)格式過濾:信息預處理應該能夠過濾不同格式的文檔,以及圖片、聲音、視頻等信息。這使得搜索引擎不僅能夠檢索文字,而且能夠檢索原始格式文件的所有信息。
(2)語詞切分:語詞是信息表達的最小單位,而漢語不同於西方語言,其句子的語詞間沒有分隔符因此需要進行語詞切分。常用的語詞切分方法有按詞典進行最大詞組匹配、逆向最大詞組匹配、最佳匹配法,聯想-回溯法、全自動詞典切詞等。近年來,又出現了基於神經元網絡的和專家系統的分詞方法和基於統計和頻度分析的分詞方法。
(3)詞法分析:漢語語詞切分中存在切分歧異,如句子“網球拍賣完了”,可以切分為“網球/拍賣完了”,也可以切分為“網球拍/賣完了”。因此需要利用各種上下文知識解決語詞切分歧異。此外,還需要對語詞進行詞法分析,識別出各個語詞的詞幹,以便根據詞幹建立信息索引。對於英語語詞,建立索引之前首先要去除壹些停頓詞(如常見的功能詞“a”,“the”,“it”等)和詞根(如“ing”,“ed”,“ly”等)。
(4)詞性標註和短語識別:在切分的基礎上,利用基於規則和統計的方法進行詞性標註。在此基礎上,還要利用各種語法規則,識別出重要的短語結構。
(5)自動標引:從網頁文檔中提取出壹組能最大程度上概括其內容特征、可作為用戶檢索入口的關鍵性信息,用該組信息對文文件進行標引,使用戶可以通過輸入關鍵信息檢索到該文文件的簡要信息,如標題、摘要、時間、作者和URL等,進壹步點擊可查詢到該文檔.
(6)自動分類:建立並維護壹套完整的分類目錄體系,根據文文件的信息特征,計算出與其相關程度最大的壹個或多個分類,將文檔劃歸到這些分類中去,使用戶可以通過瀏覽分類體系直接查詢到該文檔.
.
四、檢索
檢索包括文件信息表達和查詢信息表達以及相關信息預測過程。
(1)信息表達:信息的表達有多種方式,如布爾表達、矢量空間表達、自然語言表達等,每種表達方式由應用系統服務者提出並由整個應用系統的目的和需求所決定,並對應於相應的存儲模式和檢索算法,信息查詢和組織的效率,也就是速度和存儲的空間在很大程度上決定了檢索服務系統的性能。
(2)查詢分析:用戶端的查詢信息首先要進行分析處理,提取出查詢項索引、邏輯表達式或其它查詢特征描述。和文件信息索引不同的是:查詢索引處理是及時地提交處理形成索引,而文件信息索引是由搜索引擎按某種策略進行遠程數據的搜索和獲取預先生成的本地索引。查詢索引和文件索引采取同樣的表達方式,因此能夠采取相似性估計算法檢索出相關文件。
(3)查詢擴展:近年來,為了提高信息檢索的性能,將應用領域知識和索引、相關性、估計、查詢表達相結合實現查詢擴展,即查詢索引還包括不在用戶查詢中出現的查詢詞部分。典型的知識庫查詢擴展應用如圖1所示,知識庫中存儲的知識為原始查詢增添了相關詞,從而擴展了原始查詢。
(4)查詢詞的選擇策略:
·非獨立詞:非獨立詞指的是和查詢詞具有較大相關性的詞。但是預先必須計算文件集合中的所有詞之間的相關性。
·反饋詞:根據用戶反饋的文件信息,按照在相關文件和非相關文件中詞的出現頻率和分布決定出重要的詞,將這些詞增加到用戶查詢中。
·交互式選擇:用戶從通過上述策略得出的待選詞中決定最後的查詢詞。
反饋網絡屬於人機交互範疇,目的在於提高查詢性能和針對性。不同的用戶根據實際情況提供不同的反饋信息,不同的信息檢索服務系統按照其功能與檢索方法也有不同的反饋結構和交互方式,因此查詢結果也不盡相同。
(5) 信息檢索模型:信息檢索系統的核心是搜索引擎,它需要從大量復雜信息中,篩選出符合用戶需要的信息。根據搜索引擎查找相關信息方式的不同,可將信息檢索分為:布爾邏輯模型、模糊邏輯模型、矢量空間模型以及概率模型等。
布爾邏輯模型布爾邏輯模型是最簡單的檢索模型,也是其他檢索模型的基礎。標準布爾邏輯模型為二元邏輯,即壹系列對應於文件特征的二元變量。這些變量包括從文件中提取的文本檢索詞,有時也包括壹些更為復雜的特征,如數據、短語、私人簽名和手工加入的描述子。在布爾模型中有確切的文件特征表達集合。用戶可以根據檢索項在文檔中的布爾邏輯關系遞交查詢。匹配函數由布爾邏輯的基本法則確定。所檢索出的文檔或者與查詢相關,或者與查詢無關。查詢結果壹般不進行相關性排序。
模糊邏輯模型為了處理精度和復雜性之間的矛盾,引入了模糊邏輯模型,它以邏輯真值為〔0,1〕的模糊邏輯為基礎的,以隸屬函數概念來描述現象差異的中間過渡。在查詢結果處理過程中引入模糊邏輯運算,將所檢索的文件信息和用戶的查詢要求進行模糊邏輯比較,按照相關性的優先次序排出查詢結果,在布爾檢索中借助模糊邏輯模型能夠克服布爾邏輯查詢結果的無序性。
矢量空間模型和布爾檢索模型不同,矢量空間模型中查詢和文件都映射為同壹n維空間矢量。利用奇異值分解(SVD)、查詢詞和文件的內部結構聯系,通過歐幾裏德距離和余弦法則作相似性比較,根據矢量空間的相似性,排列查詢結果。矢量空間模型不僅可以方便地產生有效的查詢結果,而且能夠提供查詢結果分類,為用戶提供準確定位所需的信息。
概率模型在信息檢索中存在不確定性問題,對查詢本身來說,它不能唯壹地表示信息需求,對於結果來說,定查詢結果的正確與否。對於布爾檢索也是如此,因為查詢的提交本身就是壹種不確切方式。為了解決在布爾檢索模型中的不確定性問題,引入了概率檢索模型。該模型基於概率排隊理論:當文件按相關概率遞減原則排列時可以獲得最大的檢索性能。
五、全文信息檢索技術的發展
目前的全文檢索技術還存在著壹些未盡人意的結果,主要是通常的信息檢索系統性能較低,原因是將孤立詞和詞匯術語作為查詢描述子,因而文件內容的相似性較差。智能化信息檢索是人工智能和信息檢索的相結合的產物。它能使信息檢索系統“理解”用戶的信息需要和文件包含的信息內容。它在對內容的分析理解、內容表達、知識學習、推理機制,決策等基礎上實現檢索的智能化。
目前人工智能和信息檢索的結合主要包括三方面:(1)信息檢索和專家系統:主要研究方向是開發壹個專家中介系統來協助查詢形成、搜索策略選擇以及預測檢索文件;(2)信息檢索和自然語言處理:它實際上是以字或詞為符號的壹種符號系統。目前自然語言處理對信息檢索的應用仍停留在簡單語言處理上,例如確認詞根和詞組等。(3)信息檢索和知識表達:此領域的研究主要是通過應用領域知識來理解文件和查詢的信息內容。
目前,雖然某些在WWW上的信息檢索服務系統采取了智能用戶代理的等方式,可以根據用戶事先定義的信息檢索要求,在網絡上實時監視信息源,如指定Web頁面的更新、網絡新聞、電子郵件等,並將用戶所需的信息通過電子郵件等方式,主動提供給用戶,減少用戶檢索信息的時間。但是商用信息檢索系統仍主要以布爾模糊邏輯為主,輔以部分自然語言的處理。智能化信息檢索技術的發展,特別是知識學習和知識庫以及人機交互方式的應用,將大大提高信息檢索服務系統的精度和相關性。隨著智能化技術的發展,全文信息檢索技術必將更廣泛地應用於網上信息檢索領域。
參考文獻
1) WWW上的全文信息檢索技術,金燕等,計算機應用研究,1999年第壹期,P40-43
2) 全文數據庫建庫原理與應用技術,王蘭成等,情報學報,1999年第4期