全文數據庫包括中國知網、維普信息、萬方數據庫、springerlink、IEEE、OCLC、ProQuest、JSTOR、ScienceDirect、Wiley等。
全文數據庫,即全文字段型數據庫,將全文文檔的信息內容按照壹定的結構體系和組織方式進行存儲和組織,以便用戶以全文文檔的內容為檢索入口,進而獲取更詳細的文檔信息。
開發步驟
全文數據庫的開發步驟包括數據準備、文本預處理、數據加載、數據檢索和數據維護。
①數據準備是指對要加載到全文數據庫中的數據進行收集、整理和分類的預處理過程。可以通過多種方式獲取加載到全文數據庫中的數據。常見的數據來源有:計算機打字生成的文件、電子印刷生成的文稿、計算機在互聯網上傳輸的文件、電子出版物、圖形處理生成的文件,以及專門組織人工輸入建立數據庫。
數據收集好後,要做壹些簡單的分類。壹般按照數據內容進行分類,同類內容加載到同壹個庫中,很容易找到。分類對於大數據更有效。
②文本預處理包括標準格式和索引。當文檔格式多種多樣時,應進行整理和規範。在這個預處理階段完成的批量索引不受全文數據庫結構的限制,效率高。這是在建立全文數據庫之前,通過文字處理軟件和專門的自動標引軟件對數據進行標引。
建立標引詞庫有幾種方式,可以由系統構建者瀏覽文本後進行編制,也可以由編輯者通過計算機對文本中的詞語添加特殊符號後,通過專用軟件進行收集、合並、整理、剔除重復,或者在上述基礎上增加屬性標引。
③數據準備就緒後,可以加載(復制、輸入)到數據庫文件中。數據可以在單個項目中加載,也可以成批加載。壹次壹篇,采用單壹方式加載,適用於隨時加載文檔的情況;批量模式壹次加載多個項目,適合集中加載。
(4)數據庫建立後,可以根據全文檢索系統提供的檢索功能進行檢索。
⑤全文數據庫建立後,需要經常對數據庫的內容進行索引、更新、追加和排序,以保證數據庫的實用性、有效性和完整性。全文數據庫的維護通常包括:全文數據庫的結構定義、全文數據庫的數據內容、全文系統使用的詞匯、存儲空間的利用率統計和調整。