現有的航空物探資料是50年來勘探和科研成果的積累,真實記錄了中心航空物探技術的進步和發展,體現了航空物探在地質找礦中的開拓作用和突出貢獻。為實現航空物探數據的信息化管理和永久利用,拓展航空物探服務領域,航空物探數據數字化和信息化的原則是“尊重歷史、忠於原著、保持原貌、統壹要求、加強監控、保證質量”。
二、文本數據的數字化過程
航空物探資料文字資料數字化是將航空物探和科研項目的文字資料輸入電子文檔,將手寫和油印的文字資料掃描成圖像格式保存,並編寫項目成果簡介(圖8-5)。
圖8-5文本數據數字化流程圖
第三,文字資料數字化的方法
文字資料數字化的實質是將中心現有的航空物探和科研成果報告通過掃描識別和手工輸入的方式輸入計算機,按照航空物探信息系統規定的格式和版面重新編輯,形成Word文檔(DOC格式)和Adobe Acrobat文檔(PDF格式),以滿足入庫要求。
(壹)文字材料和媒體的質量分類
為了采用合理的數字化方法對文字資料進行數字化處理,將639份勘探科研成果文字資料(報告)按照紙質資料的質量、字跡和插圖的清晰度等分為四類。(表8-4)。其中1973之前的數據都是差的,差和中等質量的數據都出現在80年代中期之前。80年代中期以後的項目數據質量好,好。
表8-4文本數據媒體質量分類統計表
(2)文字資料的數字化方法
在數據分類的基礎上,根據文本數據數字化的原則,確定了文本數據數字化的具體方法。
1.手動輸入方法
因為大部分的窮人和中型材料是手寫,復制或油印,少數是鉛印;存放久了,幾經搬動,破損嚴重,字跡模糊;不能用掃描和識別的方式輸入,只能手工輸入。對輸入工作提出了具體要求,以保證手工輸入的質量。
2.掃描識別輸入法
好的好的資料采用標準鉛印或Word文檔(DOC格式)打印發布,字跡清晰,可采用掃描識別方式輸入,比手工輸入法效率更高。
手工錄入編輯航空物探項目書面報告608份,約299.8+0萬字;手工輸入編輯航空地球物理研究項目文本306篇,約839.8+0萬字。
為保證中央數據的長期保存,同時,所有手工錄入的617書面數據約9719頁(其中勘探115份,約3240頁;502篇科研論文(約6479頁)掃描錄入,光盤直接刻成PDF格式保存。
第四,校對和檢查
文本數據被手動輸入或掃描以進行識別。所有自檢形成的Word電子文檔的校樣,都必須經過二次校對和壹些三次校對或抽樣檢查,才能進入編輯排版,最終生成統壹的DOC格式的Word文檔。
由於歷史原因,早期手稿(包括文字和插圖)還存在其他壹些錯誤或不規範之處。在保持稿件真實性的前提下,盡可能地對校樣中的問題進行修正和處理,而有些則是因為自己的疏漏或含糊不清而留白。根據原文字材料所附的勘誤表,對文字進行了逐壹更正,原勘誤表基本失去了意義。
動詞 (verb的縮寫)插圖掃描的矢量化
利用MapGIS軟件,將原文報告中的測區示意圖、剖面圖、地質解釋圖等65,438+0,260幅插圖按照原插圖進行矢量化。利用數字比例尺將原插圖的比例尺轉換為線性比例尺,通過在單剖面圖上增加剖面比例尺,統壹了地質圖中的地質符號,提高了文字報告的插圖質量(圖8-6)。
第六,編輯排版
除了勘探項目和科研項目的書面報告在內容上存在客觀差異外,即使是同類報告,在報告內容、排版、編輯等方面也存在較大差異。這是航空物探技術進步的必然反映,也與過去對文字資料缺乏統壹的標準和要求有關。在文字資料的數字化過程中,根據項目的統壹要求,便於計算機管理和服務。在保持報告內容不變的前提下,利用Word編輯排版軟件,將所有輸入的書面報告按照規定的編輯模板自動編目,報告封面等形式統壹(最終的校樣稿與原件在報告封面、目錄層次、插圖、頁面位置等方面存在差異,但報告內容沒有變化)。按照這壹要求,完成了799份約47645頁的文字材料的排版,文字材料的格式由DOC格式轉換為PDF格式。
圖8-6a矢量化前的圖示
圖8-6b矢量化插圖
七。項目簡介的編制
為了使用戶在不閱讀項目成果報告全文的情況下快速了解項目概況,獲取成果報告的主要內容和信息,根據建設航空物探信息系統數據庫的要求,編制了455個航空物探科研項目簡介,約28萬字。其中,航空物探成果報告423篇,約26萬字;科研成果報告32篇,約2萬字。以濃縮形式概括項目成果的主要內容,包括工作方法或研究方法、質量評價、主要成果和最終結論。