數據庫是在計算機存儲設備上按壹定方式,合理組織並存儲的相互有關聯的數據的集合,是計算機技術和信息檢索技術相結合的產物,是電子信息資源的主體,是信息檢索系統的核心部分之壹。按所提供的信息內容,數據庫主要可分為參考數據庫和源數據庫。
1.參考數據庫
主要存儲壹系列描述性信息內容,指引用戶到另壹信息源以獲得完整的原始信息的壹類數據庫,主要包括書目數據庫和指南數據庫。
(1)書目數據庫 存儲描述如目錄、題錄、文摘等書目線索的數據庫,又稱二次文獻信息數據庫。如各種圖書館目錄數據庫、題錄數據庫和文摘數據庫等屬於此類,它的作用是為用戶指出了獲取原始信息的線索。
圖書館目錄數據庫,又稱機讀目錄,其數據內容詳細,除描述標題、作者、出版項等書目信息外,還提供用戶索取原始信息的館藏信息。題錄、文摘數據庫描述的數據內容與印刷型的題錄、文摘相似,它提供了論文信息或專利信息等確定的信息來源,供用戶檢索。
(2)指南數據庫 存儲描述關於機構、人物、產品、活動等對象的數據庫。與其它數據庫相比,指南數據庫為用戶提供的不僅僅是有關信息,還包括各種類型的實體,多采用名稱進行檢索。如存儲生產與經營活動信息的機構名錄數據庫、存儲人物信息的人物傳記數據庫、存儲產品或商品信息的產品指南數據庫、存儲基金信息的基金數據庫等屬於此類,它的作用指引用戶從其它有關信息源獲取更詳細的信息。
2.源數據庫
主要存儲全文、數值、結構式等信息,能直接提供原始信息或具體數據,用戶不必再轉查其它信息源的數據庫。它主要包括全文數據庫和數值數據庫。
(1)全文數據庫 存儲原始信息全文或主要部分的壹種源數據庫。如期刊全文數據庫、專利全文數據庫、百科全書全文數據庫,用戶使用某壹詞匯或短語,便可直接檢索出含有該詞匯或短語的原始信息的全文。
(2)數值數據庫 存儲以數值表示信息為主的壹種源數據庫,和它類似的有文本-數值數據庫。與書目數據庫比較,數值數據庫是對信息進行深加工的產物,可以直接提供所需的數據信息。如各種統計數據庫、科學技術數據庫等。數值數據庫除了壹般的檢索功能外,還具有準確數據運算功能、數據分析功能、圖形處理功能及對檢索輸出的數據進行排序和重新組織等方面的功能。
4.2.2 數據庫結構
1.書目數據庫的結構
書目數據庫是以文檔形式組織壹系列數據,這些數據被稱為記錄,壹個記錄又包含若幹字段。
(1)記錄與字段 記錄是作為壹個單位來處理有關數據的集合,是組成文檔的基本數據單位。記錄中所包含的若幹字段,則是組成記錄的基本數據單位。在書目數據庫中,壹個記錄相當於壹條題錄或文摘,因此,壹個記錄通常由標題字段、作者字段、來源字段、文摘字段、主題詞字段、分類號字段、語種字段等組成。在有些字段中,又包含多個子字段,子字段是字段的下級數據單位。如,主題詞字段含有多個主題詞。按照字段所代表記錄的性質不同,字段通常分為基本字段和輔助字段兩類。常見的字段名稱及代碼見表4-1。
表4-1 字段名稱及代碼
基本字段
輔助字段
字段名稱
字段代碼
字段名稱
字段代碼
標 題
TI
記錄號
DN
文 摘
AB
作 者
AU
敘 詞
DE
作者單位
CS
標識詞
ID
期刊名稱
JN
出版年
PY
出版國
CO
語 種
LA
(2)文檔 按壹定結構組織的相關記錄的集合。文檔是書目數據庫數據組織的基本形式,文檔的組織方式與檢索系統的硬件和軟件功能密切相關。在書目數據庫中,文檔結構主要分為順排文檔和倒排文檔。
1)順排文檔 記錄按順序存放,記錄之間的邏輯順序與物理順序是壹致的,相當於印刷型工具中文摘的排列順序,是壹種線形文檔。順排文檔是構成數據庫的主體部分,但其主題詞等特征的標識呈無序狀態,直接檢索時,必須以完整的記錄作為檢索單元,從頭至尾查詢,檢索時間長,實用性較差。
2)倒排文檔 將順排文檔中各個記錄中含有主題性質的字段(如主題詞字段、標題字段、敘詞字段等)和非主題性質字段(如作者字段、機構字段、來源字段等)分別提取出來,按某種順序重新組織得到的壹種文檔。具有主題性質的倒排檔,稱基本索引檔,非主題性質的倒排檔,稱輔助索引檔。
綜上所述,順排檔和倒排檔的主要區別是:順排檔以完整的記錄為處理和檢索單元,是主文檔,倒排檔以記錄中的字段為處理和檢索單元,是索引文檔。計算機進行檢索時,先進入倒排檔查找有關信息的存取號,然後再進入順排檔按存取號查找記錄。
2.全文數據庫的結構
壹般的全文數據庫結構與書目數據庫相似,全文數據庫的壹個記錄就是壹個全文文本,記錄分成若幹字段。其主文檔是以順排形式組織的文本文檔,倒排檔是對應於記錄可檢字段的索引文檔。
3.數值數據庫的結構
數值數據庫的結構要綜合考慮數據庫的內容及檢索目的,即,在內容上,數值數據庫的主要內容是數值信息,但不排除含有必要的說明性的文本信息,在檢索上,便於單項檢索和綜合檢索,還能對數值進行準確數據運算、數據分析、圖形處理及對檢索輸出的數據進行排序和重新組織。數值數據庫的數據結構可以是單元式,也可以是表冊形式。前者是對原始數據的模擬,後者則是對統計表格的機讀模擬。數值數據庫通常有多種文檔,如順排擋、倒排擋、索引文檔等。順排擋是由數值數據組成,為主文檔,另有相應的索引文檔,為便於存取,索引文檔采用基本直接存取結構的組織形式。倒排擋也有相應的索引文檔,索引文檔采取分級組織形式。數值數據庫的文檔結構,使所有文檔都可以用於檢索,所有數據都可用來運算,構成了數值數據庫的特點。
4.指南數據庫的結構
指南數據庫的結構兼有書目數據庫、全文數據庫和數值數據庫的特點,有順排檔、倒排檔、索引文檔和數據字典。壹般而言,對涉及主題領域較多,內容綜合性較強的大型指南數據庫,順排擋(主文檔)可采用多子文檔的結構,對單壹主題領域和內容較專的,則采用單壹主文檔和不定長、多字段的記錄格式為宜。