(天津地質調查中心)
摘要自2010起,我中心作為原始地質資料清理試點單位,根據相關要求,開始對我中心原始地質資料目錄進行清理。本文介紹了作者在開展這項工作中總結的壹些經驗和問題。
關鍵詞:原始地質資料清理總結
為全面了解原始地質資料的管理和保存狀況,建立原始地質資料目錄數據庫,提高原始地質資料的管理和服務水平,促進原始地質資料為經濟建設服務,根據中國地質調查局發展中心制定的原始地質資料清理任務要求,本中心原始地質資料目錄從2010年9月1日開始清理。目前已清理原始地質資料文件級目錄200余個,文件級目錄17000余個。在工作過程中,我總結了壹些經驗,也發現了壹些問題,在此進行探討。
原始地質資料清理工作主要依據國家地質檔案館制定的《原始地質資料歸檔整理規則》和《歸檔類別細則》、《原始地質資料清理指南》。清理軟件采用“原始地質資料清理登記管理系統”。
1原始地質數據清理流程
1.1數據的選擇
中心保存的原始地質資料由兩部分組成:壹是大規模調查形成的原始地質資料,主要以地質調查和礦產資源評價為主;二是本單位成立以來形成的原始地質資料,主要以地質科學研究為主。從歸檔時間上來說,都是1987之後歸檔的原始地質資料。從資料的專業範圍來看,包括區域調查、礦產勘查、水力環境、物理化學遠程、地質科學研究、技術方法、數據庫建設以及少量國外地質及相關專業的動態介紹。從投資者的角度來看,包括自然基金、橫向基金和壹般項目。
1.2收集原始文件目錄
從案卷中逐壹復制選定的原始數據歸檔目錄,並將其綁定為壹個。這是最耗費時間和精力的工作。90年代以前電腦還沒有普及,歸檔的文件目錄壹般都是手寫的,所以很多目錄都是潦草的,沒有專業知識很難識別專業的文字。因此,這部分工作必須由具有地質學專業基礎的科研人員進行復核,以盡量減少地質術語的錯誤。
根據《原始地質資料歸檔規則》和《歸檔類別細則》整理原始地質資料目錄,並將數據錄入批量導入模板文件(excel格式)。壹般來說,所有的檔案都有檔案目錄,但由於是不同時期形成的檔案,其目錄是按照不同的歸檔規則進行編目的,這與現行的歸檔規則不壹致,特別是缺乏“歸檔類別替代”。還需要對原始地質資料保存單元進行編碼和分類。所以這方面需要投入大量的工作。
1.3創建excel工作表
根據系統描述規則和數據庫中的各個代碼表,整理出原始地質數據文件目錄。首先將不同存儲類型的原始地質數據文件目錄轉換成excel格式,然後將文件級目錄數據按照文件級錄入規則排序,將文件級目錄數據按照文件級錄入規則排序。將文件目錄逐壹錄入表格,做好“原始地質資料清理登記管理系統”的錄入準備工作。
2.建立數據庫
由於需要清理的原始地質資料文件和文件目錄較多,在集中清理過程中使用“原始地質資料清理登記管理系統”逐項錄入費時費力,因此我們采用數據批量導入的方法完成目錄存儲。根據“原始地質資料清理登記管理系統”的數據庫創建批量導入模板(excel工作表),通過導入模板完成數據的批量存儲。具體流程如下:
圖1數據整理和數據庫建立流程圖
(1)研究“原始地質資料清理登記管理系統”數據庫表結構,明確數據表之間的關系,為批量導入記錄做前期準備。
(2)導出“原始地質資料清理登記管理系統”數據庫表中的單位表(SubOrg)、文件級信息表(YSZLBase)和文件級信息表(YSZLDetail),生成批量導入模板文件(excel格式)。
(3)根據系統描述規則和數據庫中的代碼表,整理出原始地質資料文件目錄。將不同存儲類型的原始地質資料文件目錄轉換為excel格式,文件級目錄數據按照文件級錄入規則排序,文件級目錄數據按照文件級錄入規則排序。
(4)將排序後的數據分別導入到文件級導入模板文件和文件級導入模板文件中,將各個公司的信息導入到公司導入模板文件中。
(5)將整理後的數據導入清洗軟件的數據庫中。
最後將數據批量導入“原始地質資料清理登記管理系統”的數據庫,形成“原始地質資料數據庫”。
3 .關於修訂數據類別的建議
總的來說,該表側重於地區調整,而不是科學研究。學科分類過於粗糙,尤其是沒有按照構造、地層學、古生物學等傳統學科分類。
在區域調查(10)中,區域地質調查(11)和區域礦產調查(12)是前期地質工作的重點,有各種比例尺的圖件,建議進壹步細分。區域物化探(13)與物化探(50)重復,建議明確物化探(50)定義為研究。再者,表中沒有油氣的描述,建議在區域調查(10)中增加此項。
礦產勘查(30)似乎強調特殊礦產勘查。因此,建議將其定義為“專項礦產勘查”,以區別於區域礦產調查(12)。同時,將描述中的“用地質手段查證物化探異常”歸入(54)。
地質科學研究(60)中,建議按照傳統學科進壹步細分,如構造、地層學、古生物學等。
4 .對原地質資料保管單位編碼規則的修改建議
在“原始地質數據清理指南”中,似乎關於“原始地質數據存儲單元編碼規則”的部分強調了數據是否已經本地化的問題,但沒有考慮地質數據存儲單元的位置,這對讀者來說是有意義的,因為它可以使他們快速知道數據現在在哪裏。因此,作者建議適當調整這種編碼規則,使讀者既能知道信息現在在哪裏,又能知道信息現在在哪裏。
在該編碼規則中,要求編碼長度為* * *十位數,如下所示:
第壹位數字表示是否本地化,“S”表示本地化,“W”表示非本地化。在我看來,似乎沒有必要做這樣的區分。因為本地化和非本地化只有行政意義,而提及信息保存單位似乎沒有意義。我們提供給讀者只是為了讓他們知道信息保存在哪裏。而且原地礦部還有壹部分單位不確定是否已經本地化,其他系統的單位就更難發現是否已經本地化。所以建議取消這部分。或者改為“S”表示原地礦部系統單位,“W”表示其他系統單位。
第二、三位“代表國家級、省級、非屬地化集團公司(總公司、股份公司)”。
具體編碼要求為:國家地質資料館用00表示,各省在全國行政區劃代碼表中用該行政區劃代碼的前兩位表示,如安徽省用34表示(見表1)。
表1中華人民共和國行政區劃代碼(GB/T 2260—999)
其他非本地化集團公司代碼見表2。
表2其他非本地化集團(公司)代碼
比較上面的表1和表2,很明顯有些代碼是重復的。因為它把國家單位和省級單位混在壹起,第四第五位涉及省級單位,建議從第二第三位取消省級部分。
第4、5位代表類別和行業,* * *列出11項:00省廳、01地質調查(地質找礦)、02石油、03冶金、04有色、05核工程、06武警、07煤炭、08化工、09建材、99其他(09)。壹般來說,這是按行業劃分的。筆者認為這壹項可以進壹步完善:①明確規定“省廳”是指地勘系統的省廳,或者包括保管地質資料的其他省廳,如國土所。(2)降低“其他”的承載量,因為這壹項可以包括環境、地震、高校等。如果將這三項分別列出,行業的特點會更加清晰,有利於參考。
第6、7位更復雜:①表示非屬地化集團公司(總公司、股份公司)直屬地質資料保管單位;如果直屬單位沒有局級只有司級,第6、7位用00表示。(2)表示省(自治區、直轄市)政府(或國土資源局)局級地質資料保管單位,如果是社會投資者或沒有局級但只有處級地方管理單位,第6、7位用00表示。
根據這兩個規則,第6位和第7位多數情況下可以編碼為“00”。筆者認為,這樣壹來,設置這兩個數字的意義就失去了。因此,建議是否按照地質資料保管單位所在的行政區劃代碼進行編碼,有利於了解地質資料保管單位的具體位置。
第8、9、10位“代表本地或非本地地勘單位(按順序編號)或社會投資者”。按照作者的理解,這是對所有單元的順序編號。而且好像全國所有單位都是有編號的。由於地勘單位數量多,會有比較大的數量。如作者建議第6位和第7位按地方行政區劃編碼,能否沿此線將壹個行政區劃(可以以地市級為準)內的所有地質資料存儲單元依次編碼?
再者,根據上述編碼規則,只有第四位和第五位表示類別和行業,其他都與數據的位置有關。好像第4名和第5名可以放在最後作為第9名和10名。那麽,這個編碼規則有如下順序:國家單位-省級單位-具體存儲單位-數據類別和行業。
5關於數據庫的建議
(1)建議在檔案級基礎信息表中增加“地質地名”。在基本信息錄入項中,雖然使用了初始經緯度和行政區劃項來確定工作區域,但有些項目尤其是壹些綜合性研究項目的工作範圍並不能很好地確定。如燕山構造帶包括東經110o ~ 12o,北緯38o ~ 42o範圍。如果搜索者輸入北緯39o或東經115o,可能達不到檢索目的。如果加上“地質地名”,如燕山構造帶地質工作中常用的,如承德、薊縣等,可能有利於更好地描述原始數據的工作區域,有利於快速查找和定位原始數據。
(2)建議添加“關鍵詞”。現代科技文獻中,要求作者描述3 ~ 8個關鍵詞進行文獻檢索。而且搜索者還可以通過關鍵詞大致了解文章內容。所以,關鍵詞有畫龍點睛的作用。原始地質資料也是文獻的壹種,但由於歷史原因,很多原始地質資料沒有關鍵詞,給地質學家理解文獻內容和檢索增加了難度。如果在基礎信息的錄入中加入這方面的內容,可能有助於原始地質資料的利用。
3)在原始數據清理過程中,往往會在短時間內錄入大量數據,建議在清理軟件中增加批量數據導入的功能,提高原始地質數據清理和建庫的效率。
6結論
根據國家地質檔案館制定的相關細則和工作指南,原始資料清理工作取得了進展,總結了工作中遇到的問題和經驗。在此基礎上,繼續清理原始資料,補充原始地質資料目錄數據庫,可以進壹步提高原始地質資料的管理和服務水平,促進原始地質資料為經濟建設服務。