基於Internet的信息資源發現技術與實現
王繼成 鄒 濤 楊小江 潘金貴 張福炎
摘 要:Internet上大量、異質、分布、動態的信息造成了“信息過載”.在信息充斥的情況下,如何有效地為用戶提供基於Internet的資源發現服務已經成為壹項重要而迫切的研究課題.搜索引擎部分地解決了資源發現的問題,然而其效果卻遠不能使人滿意.文中首先提出了分布協作式資源發現策略,討論了資源發現服務中所涉及的幾項關鍵技術,包括:多維文檔立方體數據模型、Web文檔檢索、基於Z39.50的書目檢索以及基於Agent的用戶接口等,並給出了相應的解決方案.在此基礎上,文中構造了壹個系統原型RDSCC,以有效地提高Internet上資源發現的質量.
關鍵詞;資源發現,多維文檔立方體,Web,Z39.50,Agent
中圖法分類號:TP391; TP393
THE TECHNOLOGY AND IMPLEMENTATION OF RESOURCE
DISCOVERY ON INTERNET
WANG Ji-Cheng, ZOU Tao, YANG Xiao-Jiang, PAN Jin-Gui, and ZHANG Fu-Yan
(State Key Laboratory for Novell Software Technology, Nanjing University, Nanjing 210093)
(Department of Computer Science and Technology, Nanjing University, Nanjing 210093)
Abstract A mass of heterogeneous, distributed, and dynamic information on Internet has resulted in “information overload”. With the flood of information, it has become an important research issue to provide users with effective service of resource discovery on Internet. Search engines attempt to solve this problem, yet their effect are far from satisfying. In this paper, a distributed cooperative strategy for resource discovery on Internet is firstly presented. Then, several key technologies involved in resource discovery are studied, including data model, Web document retrieval, bibliographic retrieval based on Z39.50, and agent-based user interface. Finally, a system prototype RDSCC is designed to improve the quality of resource discovery on Internet.
Key words resource discovery, multi-dimension document cube, Web, Z39.50, agent
1 引 言
人們已經進入信息極大豐富的時代.壹方面,信息來源廣泛,包括Web文檔、圖書文獻,數字化資料等,這些異構的信息分布在Internet空間中;另壹方面,信息量巨大.以Web文檔為例,目前已經擁有3億頁面,而且這個數字仍以每4至6個月翻壹倍的速度增加〔1〕.面對信息的海洋,人們覺得力不從心,往往花費了很多時間卻所獲甚少.在這種情況下,如何有效地提供基於Internet的資源發現服務,以幫助用戶從大量信息資源的集合中找到與給定的查詢請求相關的、恰當數目的資源子集,也就成為壹項重要而迫切的研究課題.
傳統的搜索引擎,例如AltaVista,Yahoo等,試圖解決Internet上的資源發現問題.但是,從資源覆蓋度、檢索精度、檢索結果可視化、可維護性等諸多方面來看,其效果遠不能夠令人滿意.此外,搜索引擎僅提供對Web文檔的檢索,缺乏對書目文獻等其它重要信息資源的支持.在本文中,我們針對Internet資源發現的現狀,提出了分布協作式資源發現策略,同時,討論了資源發現服務中所涉及的幾項關鍵技術,其中包括:多維文檔立方體數據模型、Web文檔檢索、基於Z39.50的書目檢索以及基於Agent的用戶接口等.在此基礎上,我們設計了壹個系統原型RDSCC,以有效地提高Internet上資源發現的質量.
2 資源發現的分布協作策略
我們註意到,搜索引擎采用的是典型的集中方式,它們試圖遍歷整個Web,對其上所有的文檔生成索引,供用戶檢索.這種集中方式給Web文檔檢索帶來了壹些嚴重的弊端,主要表現在:①覆蓋度有限,據估計,任何壹個搜索引擎索引的Web頁面都不到頁面總數的三分之壹〔2〕;②維護困難,搜索引擎索引數據庫的更新頻率有限,往往會產生索引失效〔3〕;③消耗太大,包括網絡帶寬、搜索引擎自身昂貴的硬件設施等.元搜索引擎,例如MetaCrawler,通過綜合多個搜索引擎的結果,在壹定程度上擴大了覆蓋度.但是,元搜索引擎對搜索引擎的依賴,使它無法從根本上解決上述問題.隨著信息資源的種類和數量的急劇增長,集中方式使得上述弊端更為惡化.壹方面,需要管理的信息資源極其巨大,任何壹個集中式資源發現系統都無法完全滿足需求;另壹方面,各個集中式資源發現系統各行其是,重復建設.因此,我們認為,Internet上的資源發現應該采取分布協作的策略.
資源發現的分布協作策略,是指按照某種原則對Internet上的信息資源空間進行劃分,得到若幹個信息資源子空間.對於每個子空間,分別建立壹個資源發現系統以提供相應的資源發現服務.目前,分布計算以及多Agent系統等領域的研究已經取得了豐碩的成果,可以用於集成這些自制、異構的資源發現系統,從而構成Internet上的協作檢索群體.信息資源空間的劃分原則可以是按照學科領域,也可以按照地理區域等.例如,我們可以為各種不同專業的科研人員建立專業領域資源發現系統.用戶可以根據自己的需要向相應的系統提出請求.采用分布協作的資源發現策略,各個資源發現系統所要管理的信息資源相對縮小,可以降低消耗,便於維護;同時,各系統之間通過相互協作,擴大了覆蓋度.可見,這種策略可以有效地克服集中方式的不足,提高資源發現服務的質量.
3 資源發現服務中的關鍵技術
資源發現系統的開發是壹個涉及多領域、多技術的復雜工作.其中,數據模型是系統的核心,Web文檔和書目數據是系統的兩個重要信息來源,而用戶接口的好壞直接決定了系統的使用效率.下面,我們對這幾項關鍵技術分別加以討論,給出相應解決方案.
3.1 數據模型
就管理信息資源而言,數據庫優於平面式文件系統.因此,資源發現系統通常采用文檔數據庫來存儲異構的信息資源.文檔數據庫的內部實現壹般采用半結構化的邏輯模型,而其外部表現,即反映給用戶的視圖,則構成了資源發現系統的概念模型.例如,搜索引擎返回給用戶的通常是壹個順序固定的線性列表,其中包含了Web文檔的標題、URL和摘要.在這種概念模型中,用戶必須逐個地瀏覽以找到相關文檔,花費了大量的精力.當返回的結果數目眾多時(這種情況非常普遍),這個問題更為突出.對用戶行為的有關研究表明,用戶經常希望能夠從多個角度觀察信息資源,而不滿足於簡單的、固定的列表.OLAP是數據庫環境中的壹種有力的分析工具,它為用戶提供了關於數據的多維視圖〔4〕.雖然Web文檔等信息資源和數據庫有著本質的區別,但我們認為OLAP技術對其仍有借鑒之處.下面,我們引入多維文檔立方體作為資源發現系統的壹種新的概念模型.
定義1. 維d,是指人們觀察文檔的角度.例如,某個用戶希望從時間、機構等角度來觀察文檔.用戶也常常關心某個主題分類的文檔情況.這裏的時間、機構、主題分類等元數據就構成了文檔的維.
定義2. 多維文檔立方體CDocument,是指以文檔Document為中心,以文檔的元數據(維di)分布在文檔的周圍,從而構成的壹個超級立方體(d1, d2,…,dm, Document).
在多維文檔立方體上,可以進行各種多維分析操作,包括:切片、切塊、旋轉、上鉆、下鉆等,從而生成多種文檔視圖,使用戶能夠從多個角度觀察文檔資源的各種特征,深入了解包含在其中的信息內涵.例如,用戶可以通過切片從文檔集合中來選擇某個機構的文檔子集.在該子集中,按照主題內容來分組,在同壹個主題內按照時間進行排序.用戶既可以通過上鉆來折疊視圖,觀察每個主題的總體特性;也可以通過下鉆來展開視圖,觀察每個子主題或每個文檔的具體特性.如圖1所示.
圖1 文檔超立方體與多維文本視圖
除了能夠為用戶提供有效的可視化手段以外,在多維文檔立方體上還可以進行統計分析,從而能夠揭示文檔資源中的特征分布.例如,我們可以比較不同的機構在不同的時間中關於各個主題的文檔的情況,從而回答壹些搜索引擎無法回答的問題,例如“近年來哪所大學在圖形圖像領域中發表文章最多?”.
需要說明的是,上述多維文檔立方體和多維文檔分析必須建立在利用計算機語言學和信息處理技術對文檔資源進行預處理的基礎之上.文檔維來自於預處理所得到的元數據,例如時間、作者、主題等.
3.2 Web文檔檢索
目前,Web已經成為人們獲取信息的重要來源. Altavista等搜索引擎的檢索算法相對簡單,檢索精度有限,這使得檢索到的Web文檔的相關性得不到保證〔3〕.Yahoo通過對Web文檔進行分類以方便用戶的瀏覽和查找,但分類工作由人工完成,大大影響了其處理的頁面數目(Yahoo! 對Web文檔的覆蓋度遠遠小於Alta-vista等).為此,我們設計了壹種新的Web文檔檢索模型,包括語料庫維護、詞典維護、Robot、特征矢量生成器、訓練器、分類器等6個部分組成,如圖2所示.該模型能夠分析用戶的信息需求,然後自動搜集滿足目標特征的Web文檔供用戶查閱.
圖2 Web文檔檢索模型
在該模型中,我們采用了常用的向量空間模型(vector space model,VSM)〔5〕作為用戶信息需求和文檔特征的表示方法.VSM將每壹個(或每壹類)文檔映射為由壹組範化正交詞條矢量所張成的向量空間中的壹個點.每個用戶信息需求或未知文檔都可以表示為該向量空間中的壹個特征矢量(T1,W1;T2,W2;…,Tn,Wn),其中Ti為特征詞條項,Wi為特征詞條權值.這樣,文檔與用戶信息需求的匹配以及文檔的分類都轉化為向量空間中的矢量匹配處理.該模型的工作分為訓練和分類兩個階段.
(1) 在訓練階段,用戶首先建立語料庫,即給出壹批代表其信息需求的示例文檔(每個文檔被標上壹個類別標識).特征矢量生成器利用詞典庫(常用詞典和專業技術詞典)將訓練文檔表示為壹系列特征矢量.訓練器對每類訓練文檔的特征矢量進行統計,生成代表該類的特征矢量.
(2) 在分類階段,Robot模塊首先將Web文檔收集到本地.特征矢量生成器將本地的待分類文檔表示為壹系列特征矢量.分類器將待分類文檔的特征矢量與訓練器生成的類別特征矢量進行相似度匹配以得到文檔的分類,並將符合相似度閾值條件的已分類文檔返回給用戶.
經實用表明,該模型能夠對大量Web文檔進行自動、快速地分類〔6〕.由於使用了專業技術詞典,分類精度明顯高於面向普通文檔的系統,較好地保證了檢索到的Web文檔與用戶需求的相關性.
3.3 基於Z39.50的書目信息檢索
圖書文獻是人們獲取信息的另壹個重要來源,因此聯機書目檢索是資源發現系統的重要組成部分.圖書館的聯機書目檢索服務傳統上是通過Telnet方式提供的.近年來,許多圖書館采用Web加CGI的形式為書目檢索提供圖形化界面.這些服務方式的壹個重要缺陷在於各個圖書館的書目檢索界面不壹致,用戶要檢索每個圖書館就必須熟悉相應的界面.為此,ISO制定了Z39.50協議,作為檢索遠程圖書館書目的標準〔7〕.Z39.50是壹個運行在TCP/IP協議之上的應用層協議.它規定了客戶機查詢服務器以及提取結果記錄等過程中所涉及的數據結構和數據交換規則,從而解決了現存書目數據庫檢索接口的異構性問題.目前,該標準已經被國外許多圖書館所采納,但國內尚未有壹家圖書館提供基於Z39.50的書目檢索服務.我們設計了壹個基於Z39.50的聯機書目檢索模型,並在此基礎上成功地開發出國內第壹套基於Z39.50的書目信息檢索系統〔8〕,如圖3所示.
圖3 基於Z39.50的書目信息檢索模型
在該模型中,圖書館的書目存放在數據庫服務器的壹個或幾個書目數據庫中.Z39.50服務器在約定端口上偵聽用戶的連接請求(InitRequest).在成功地建立連接後,Z39.50客戶發出查詢請求(SearchRequest),Z39.50服務器將接收到的“抽象的”Z39.50標準查詢轉換為“具體的”SQL查詢,提交給後臺數據庫服務器執行,生成查詢結果集.然後,Z39.50服務器將查詢的執行情況以及部分結果返回.Z39.50客戶可以多次發出提取請求(PresentRequest)來獲得結果集中的所有書目數據.為了使壹個Z39.50客戶能夠同時查詢多個圖書館的書目,我們在客戶端采用多進程(多線程),和多個服務器並發地建立連接,並對查詢結果進行後處理,包括綜合各進程的查詢結果、消去其中重復出現的書目等.
3.4 基於Agent的用戶接口
在資源發現系統中,用戶接口在用戶與信息資源之間起著橋梁作用.由於信息資源的大容量、動態性和復雜性,傳統的人機交互方式顯得無能為力.基於Agent的用戶接口被認為是解決人機交互問題的壹個突破口〔9〕.目前,Agent技術的研究雖然十分流行,但對於其定義和特征還沒有統壹的結論.我們從軟件抽象的角度出發,給出如下定義.
定義3. Agent是壹種抽象手段,它既可以用來描述復雜系統又能夠描述系統與用戶之間的交互.
定義4. 用戶接口Agent是用戶在與計算機系統接口時使用的壹種形象化抽象,可以簡要地表示為壹個四元組(Task, Knowledge, Constrain, Status).其中,Knowledge是知識庫,保存從外界學習到的知識,例如用戶的信息需求和愛好等;Constrain是約束條件集合,例如用戶對Agent運行時間作出的限制等;Status是Agent運行狀態的集合;Task是任務求解模塊,它在知識庫、約束集、狀態集的基礎上運用推理規則處理事件及完成任務.
在用戶看來,用戶接口Agent是壹個半自主的應用程序.壹方面,它擁有知識,了解用戶的需求和愛好,能夠代表用戶智能地完成某個任務,並具有學習和適應能力;另壹方面,它受用戶的控制.用戶可以觀察它的活動狀態,也可以臨時性地暫停或恢復其活動,甚至將它永久性地撤銷.用戶接口Agent在資源發現系統中執行的任務是多種多樣的.當系統中增添了用戶感興趣的信息資源時,Agent將通知用戶. Agent也可以根據用戶的需求或偏愛對信息資源進行過濾,建立個性化的界面.可見,基於Agent的用戶接口為用戶與復雜、動態的信息世界進行交互提供了重要手段.
4 基於Internet的資源發現系統原型
在上述討論的基礎之上,我們開發了的壹個資源發現系統原型RDSCC(resource discovery system for computer community). RDSCC是壹個面向計算機學科領域的專業資源發現系統,其目的是為該領域的研究人員提供Internet資源發現服務以掌握本專業的全面、最新信息.該系統結構如圖4所示.
圖4 Internet資源發現系統原型RDSCC
RDSCC由8個模塊組成.其中,文檔數據庫系統負責管理半結構化文檔資源.為了提高易用性,我們采用Web服務器來向用戶提供資源發現服務.轉換器作為Web服務器和文檔數據庫系統的中介,可以將文檔數據庫的內容轉換成HTML格式,也可以把用戶輸入轉換成對文檔數據庫系統的操作.Web文檔收集與分類器下載符合用戶信息需求的有關計算機方面的Web文檔並進行自動分類.元數據抽取器從已分類文檔中抽取文檔元數據,導入器將文檔和元數據存儲到Web文檔庫中,並建立索引.Z39.50網關提供基於Z39.50的書目檢索服務,依據用戶通過HTML表單提交的查詢請求(包括查詢哪些圖書館以及何種計算機書目),同時查詢多個圖書館的Z39.50服務器.
用戶利用瀏覽器可以進行各種多維文檔分析操作,從多個角度來閱讀和檢索文檔庫的內容.系統還利用Agnet技術為用戶提供了配置(profile)機制,用戶可以訂閱文檔,定制瀏覽界面.
5 結束語
在信息充斥的情況下,基於Internet的資源發現服務是壹個具有極大潛力的研究方向,用戶可以從分布的不同資源發現系統中獲取所需的信息資源.本文提出了分布協作式資源發現策略,對資源發現系統開發中所涉及的數據模型、Web文檔檢索、書目檢索以及用戶接口等關鍵技術作了研究,並簡要介紹了壹個網絡信息服務系統原型RDSCC.在該領域仍有許多問題值得深入探討,包括:在DCOM/CORBA計算環境上實現多個資源發現服務器之間的分布協作;利用HTML、XML等規範從Web文檔中抽取元數據等等,這些都將是我們下壹步要進行的工作.
*本課題得到江蘇省“九五”科技重點攻關項目(項目編號BE96017)和江蘇省教委圖書館自動化項目資助.
作者簡介:王繼成,男,1973年6月生,博士研究生,主要研究方向為計算機網絡、信息處理.
鄒濤,男,1970年11月生,博士研究生,主要研究方向為計算機網絡、信息處理.
楊小江,男,1965年6月生,博士研究生,主要研究方向為超媒體、信息處理.
潘金貴,男,1952年1月生,教授,主要研究方向為中間件、Agent技術.
張福炎,男,1939年11月生,教授,博士生導師,主要研究方向為多媒體、CAD與圖形學、信息處理.
作者單位:南京大學軟件新技術國家重點實驗室 計算機科學與技術系 南京 210093
參考文獻
1 Gudivada V N et al. Information retrieval on the world wide web. IEEE Internet Computing, 1997, 1(5): 58~68
2 Lawrence S, Giles C L. Searching the world wide web. Science, 1998, 280(5360): 98~100
3 Lawrence S, Giles C L. Context and page analysis for improved web search. IEEE Internet Computing, 1998, 2(4): 38~46
4 王珊等. 數據倉庫技術與聯機分析處理. 北京:科學出版社, 1998
(Wang Shan et al. The Technology of Data Warehouse and OLAP(in Chinese). Beijing: Science Press, 1998)
5 Salton G et al. A vector space model for automatic indexing. Communications of ACM, 18(5): 613~620
6 鄒濤, 王繼成, 張福炎等. 基於Web的資料搜集系統的設計與實現. 情報學報, 18(3): 195~201
(Zou Tao, Wang Jicheng, Zhang Fuyan et al. The design and implementation of an information gathering system. Journal of the China Society for Scientific and Technical Information(in Chinese), 18(3): 195~201
7 ANSI. Information Retrieval(Z39.50): Application Service Definition and Protocol Specification. ANSI/NISO Z39.50-1995. Bethesda, MD: NISO Press, 1995
8 楊曉江, 張福炎等. 利用Z39.50提供聯機書目檢索服務. 軟件學報, 10(8): 824~828
(Yang Xiaojiang et al. Bibliographic retrieval based on Z39.50. Journal of Software(in Chinese), 10(8): 824~828)
9 Baecker R et al. Readings in Human-Computer Interaction: Towards the Year 2000. Morgan Kaufmann Publishers, 1995