元數據保證文件真實性的原理是什麽?
根據國內外眾多學者對元數據的分析和描述,我們可以發現元數據具有以下特點。首先,它是動態的。因為元數據是文件產生、存儲、利用和銷毀全過程的真實記錄,它隨著文件的產生而產生,並隨著人們對文件的各種管理活動而不斷增加。其次,它具有多樣性。在信息環境中,對於不同的資源類型,已經存在多種元數據格式,人們經常針對不同的應用層次或角度產生各種元數據格式,從而積累了大量格式多樣的元數據。第三,數量龐大。壹方面,為了全面真實地反映各種經營活動和個人活動,要多角度、多層次地記錄;另壹方面,為了完整記錄文件管理的全過程,需要記錄各種操作活動,這必然會產生大量的元數據信息。明確了元數據的特點,我們就可以采取壹些有針對性的方法和措施來捕捉。在電子文檔管理系統中,通常通過自動記錄和手動記錄相結合的方式來獲取元數據。對於壹些元數據,我們可以事先設計好相應的標簽,標註在所描述的對象上,比如收發不同的標簽,文件是否歸檔,對象是文件還是文件的壹部分,文件的保密級別,保存期限等等。對於公司系統下發的文件,系統會自動彈出元數據項,供制單人填寫,如標題、形成日期、起草人、形成部門、內容摘要等。對於來自外部公司系統的溝通,系統會自動提取上述相關信息。文件的另壹部分元數據項由系統自動生成,如使用的字體、版式格式、邏輯格式以及系統軟硬件的描述,電子文件使用過程中的利用信息也由系統自動記錄並保存為元數據。為了保證高精度,元數據必須跟上現狀的變化。確保元數據準確並得到良好維護的唯壹方法是盡可能自動化維護過程。我們不需要知道應用系統的編寫情況,只依靠進程維護元數據的結果就可以看出來。壹般元數據的量通常很大,最實用的方法是只收集變化的部分,而不是定期刷新整個元數據集,尤其是動態的使用信息,現有的信息應該定期添加而不是改變。謝素芳元數據,顧名思義就是關於數據的數據,或者說是關於數據的結構化數據。元數據作為壹個概念提出的時間並不長,但元數據本身並不是壹個新事物。自從對人類產生的信息和知識進行分析、分類和管理以來,元數據發揮了重要作用。傳統的檢索工具,如目錄卡片、文件目錄、文件封面、分類表等。都屬於元數據的範疇,書籍的版權描述,光盤的標簽也都是元數據。元數據的概念源於計算機科學,由Myers在1960中提出。在當時,這是壹種有效描述數據的方式。後來,面對電子信息特有的分散性、多變性和多樣性,元數據再次引起了更多的關註。目前元數據研究的重點主要是網絡環境下的數據描述和數據管理。元數據可以處理各種形式的信息,包括尚未電子化和電子化的信息,尤其可以解決網絡環境下的信息發現、控制和管理問題,因此被廣泛應用於圖書館、檔案館、電子政務等領域。下面我主要談談元數據在電子政務系統中的應用。目前,我國正在加緊實施電子政務建設。面對大量分散的政府信息資源,從政府機構的角度來看,如何在網絡環境下組織、控制和管理信息資源,提供高效優質的信息服務是其努力的目標。對於廣大用戶來說,如何利用網絡跨越政府機構多級組織的障礙,如何搜索、判斷和獲取有價值的政府信息是他們關註的焦點。因此,利用元數據進壹步描述和管理政府信息,開發新壹代的檢索機制來獲取政府信息顯得尤為重要。目前,政府信息的元數據格式主要有兩種:gils(政府信息定位服務)和DC(Dublin Core)。其中,根據GILS發展信息指導服務的國家有美國、加拿大、日本等。在電子政務建設中,英、澳、新等國家基於DC開發了電子政務系統的元數據集。李新利,目前檔案界關於元數據的解釋有很多:國際檔案理事會《電子文件管理指南》(1997)指出:“元數據是關於文件的背景信息和結構的數據。”澳大利亞聯邦機構電子文檔管理元數據標準(1999)對元數據的定義是:“元數據是關於電子文檔背景信息的描述性信息”。英國國家檔案館(電子文件管理指南(1999))提出的定義是:“元數據是單個電子文件和記錄組的背景及其關系的結構化描述性數據”。從上面列出的定義中,我們可以看到元數據和描述性信息或描述性數據之間有著密切的關系。但是,兩者所描述的範圍是否完全等同呢?實際上,兩者所描述的內容範圍並不完全相同,而是相互交叉的:有些由系統自動記錄的元數據可以直接作為描述信息,而有些描述信息並不是用元數據來描述的,比如對文件內容特征的壹般性描述,元數據的描述範圍要比電子文件寬得多。在這方面,國際社會也開展了壹些電子文件元數據研究項目,形成了不同類型的元數據結構體系(有的稱為“元數據模板”),如美國匹茲堡大學的元數據研究項目;澳大利亞Monassi大學的Sue McKemi負責建立文件保存的無數據標準,以便在網絡環境中發揮信息資源的行政、社會和文化作用;加拿大哥倫比亞大學的露絲安娜·杜蘭蒂主持的InterPARES項目(電子系統中文件真實性永久保證的國際研究項目)等。它們的劃分標準不同,導致元數據模板不同。但無論如何劃分,都盡可能包含所有的描述文件、文件集、機構、系統以及與之相關的各種信息。元數據的應用不僅減少了人工描述的工作量,而且在保證電子文檔的真實性和可靠性方面具有獨特的優勢。建立電子檔案管理制度,跟蹤記錄電子檔案在形成、傳遞、保管、利用等各個環節的運行情況,隨時記錄檔案的時間、地點、人員、活動、制度、結構、內容等相關信息。而且元數據壹旦形成,就被封裝了,這樣只能寫和讀,不能修改和刪除。形成的元數據可以與文件壹起保存,用於檢驗電子文件的真實性和可靠性。陸曉慧元數據壹詞是隨著互聯網的發展而產生的。隨著互聯網的飛速發展,互聯網上的大量信息需要有效地組織起來,以便更好地檢索和利用。雖然相關的網絡查詢工具(如搜索引擎)可以自動從網絡資源中提取信息,並對其進行索引以供檢索,但我們往往發現其查準率和查全率較低,並沒有發現太多有用的信息。而傳統的信息組織方式對於非專業人員來說很難完全掌握,對於專業人員來說,要完成海量網絡資源的組織和整理需要耗費太多的人力和成本。我們需要壹種更有效、更簡單、更準確的組織方式來描述和組織網上資源,元數據結構就是在這種情況下提出的。隨著信息網絡的快速發展,信息的主要形式正逐步從傳統的印刷材料向網絡化、多媒體和分布式的數字信息資源轉變,其描述和發現機制也發生了深刻的變化。因此,網絡信息的描述和發現成為人們關註並需要努力解決的問題。元數據用於描述互聯網上的數據和資源的屬性。通過元數據,可以促進互聯網上信息的組織和發現,並且可以識別、定位、發現、描述和選擇信息。同時還可以知道壹個互聯網信息站點的資源類型,壹個政府信息網頁的標題、作者、主題、關鍵詞、內容摘要。分布在全球互聯網上的Web圖像是壹個擁有眾多電子文檔的龐大圖書館,其信息資源需要按照壹定的標準進行有序組織,並通過圖像庫的目錄進行組織和檢索。本質上,元數據具有電子目錄的功能,可以揭示各類電子信息的內容和其他特征,進而達到對網絡信息進行組織、分類和索引的目的。任鳳仙,近年來,互聯網的發展異常迅速,網絡中的信息資源也在呈爆炸式增長。在這種情況下,信息匱乏的問題可以說已經解決了,但是網上的信息種類繁多,這就不可避免的帶來了壹個亟待解決的新問題,那就是如何從中找到自己需要的信息。其實這並不是壹個全新的問題。妳可以回憶壹下在圖書館查資料的情況。我們想找的信息可能是某個具體的作品,某個期刊上的某篇具體的論文,某個作者的論著,或者某個出版社出版的某本書,或者我們只是想找某個話題相關的東西,而沒有具體的信息。圖書館裏有許多書。為了找到我們需要的信息,要求圖書館裏的書必須滿足壹些條件。首先,圖書館裏的書必須按照壹定的分類標準進行分類,並按照壹定的順序擺放。其次,我們經常需要目錄、索引和其他工具的幫助。在互聯網上搜索信息的情況類似於圖書館。我們不能大海撈針,壹頁壹頁地看。可行的方法是借鑒人對圖書館圖書的處理原理,關鍵是元數據的使用。國家圖書館多數據庫檢索中多字段檢索的元數據項主要包括主題、負責人、書名、出版者、語種、年份、數據類型、位置等。英國國家圖書館書目的元數據元素包括檢索文本和檢索類型,檢索類型包括標題、作者(創建者瀏覽)、主題瀏覽、索書號瀏覽、LCCN-IS-BN-ISSN、關鍵字、命令關鍵字等。於慧敏首先要明確,元數據是壹個抽象的概念。目前關於元數據的定義有很多,常規的是元數據是關於數據的數據,過於簡潔寬泛。元數據是描述某種類型的資源(或對象,object)的屬性的數據,定位和管理這種資源,並有助於數據檢索。人們在描述現實世界中的現象時,會產生抽象的信息,這些信息可以看作是元數據。在數據設計的過程中,也用抽象的術語來描述現實世界中的各種現象。例如,人們將人、地點、事物和數字組織或指定為員工、客戶或產品數據。在軟件設計過程中,數據庫結構可以概括為開發人員和設計人員都能理解的元數據分類方案。表或窗體是從對象派生的,而對象又是從類派生的。元數據中有多個抽象層次。可以先描述壹個數據實例,然後描述描述本身,再描述後面的描述,以此類推,直到達到壹定的實用極限,無法繼續描述。通常,軟件開發中使用的元數據的描述可以擴展到兩個或三個層次的抽象概念,就像集合中的真子集壹樣。我們可以理解為元數據是不可分割的數據,是最小的數據單位。與元數據的概念相比,它的使用更容易理解,元數據類型和實例信息可以像任何類型的應用程序或數據設計元素壹樣使用。將設計信息表示為元數據,尤其是標準元數據,可以為重用、數據檢索、享受和多工具支持提供更多的可能性。就海量信息的利用而言,對數據檢索的需求很高。從理論上講,元數據是不可約的數據,所以提高了檢索的準確率。還需要指出的是* * *元數據共享是未來的大趨勢,* * *元數據共享是壹種跨異構平臺和開發環境部署數據和應用結構的方式。它可以提供公共定義,以便工具和應用程序可以解釋相同的元數據定義,並將其轉換為特定於應用程序的結構。元數據是壹個集成點,因為它是壹個抽象的概念,包含了壹些基本的細節,無論實現策略是否改變,這些細節都會保持不變。這種靈活性使得元數據非常適合設計工作,因為它可以將設計與實現分開。當使用預定義的元數據時,您可以使用最合適的開發工具來實現特定的設計。* * *享受元數據應當對檔案信息的管理和利用具有重要意義。依托互聯網的數字檔案館建設需要* * *享受元數據,避免信息重復,真正使之成為社會使用的大數據庫。事實上,元數據管理和利用的過程就是標準化的過程。就檔案而言,數字檔案計劃只有在雙方同意的標準指導下才能實現。隨著元數據在檔案領域的研究和利用,相信未來的檔案信息世界會更加精彩。劉彩霞元數據是為了有效解決網絡資源檢索中存在的問題而產生的。其本質含義是關於數據的數據,用來描述原始數據的特征和屬性。例如,對於文檔信息資源,元數據可以是目錄、索引、摘要和主題等文檔特征和屬性。元數據中包含的數據元素集合可以用來描述信息對象的內容和位置,這使得互聯網上的網頁更像圖書館中整齊排列的文檔,而不是雜亂無章的書籍,從而可以在網絡中輕松找到和檢索。由於網上數字資源的形式不同,既有論文、會議紀要等常見的電子文本,也有圖像、聲音、網頁等,不同形式的數字資源對數據格式有不同的要求。因此,目前有各種元數據標準來描述在線數字資源。國外已經產生並在實踐中得到應用或測試的元數據標準有二十多種。在我國,不同單位對中文元數據的建設沒有達成共識,沒有采取聯合、合作、共享的策略。例如,中文元數據方案中相關數據項的數量差異很大。國家圖書館聯合其他單位制定的《中文核心元數據規範》使用了近80個數據項,而清華大學使用的元數據項只有16,主要基於DC元數據集。因此,中文元數據的標準化和規範化目前還難以實現。就未來中文元數據的建設而言,應加強中文元數據標準化的研究,借鑒國際上先進的、通用的元數據標準或應用方案,在充分考慮中文資源應用特點的前提下,制定出符合中文資源應用需求的、機構和社會各界享受信息所需的、大眾化的元數據標準。陳曉元數據存在於各個領域。它的定義因不同領域的理解而異。在此,筆者參照匹茲堡項目的研究成果,從檔案學的角度來審視比特時代的“元數據”。元數據是數據和信息,用於描述文檔的電子信息。匹茲堡項目使用元數據來確保電子文檔的證據功能,並將它們聚集在幾個同心的元數據層中。系統可以自動捕獲其中壹些元數據,而其余的則依賴於手動輸入。元數據的組成元素分為句柄、條款和條件、結構、上下文、內容和使用歷史。電子文件的檢索通常是基於文件的,因此為了定位和檢索文件,元數據是必要的。盡管元數據的所有層都必須出現在系統中,但並非每層的所有元素都是必需的。為了檢索文件,組織需要確定元數據的數量和類型,以確保文件不會被任意更改和刪除。對於紙質文獻的檢索,壹般是先確定可能包含所需文獻的相關文件,然後對這些相關文件逐壹進行徹底的檢查。20世紀初,掛號室的工作系統記錄了大量紙質文檔的元數據。筆者想到的是中國的《全宗卷》。檔案管理註:全卷是“在整個管理活動過程中形成的由管理記錄材料組成的壹個案卷”,本質上是“在整個管理活動過程中形成的壹個文件,是檔案管理活動的原始記錄”,是檔案的壹個檔案。單獨存放,統壹管理,不能和全氏族混放,更不能在全氏族中當作壹個檔案。相比之下,兩者都有相似的特點:1。它們都是檔案或文件管理和檢索工具。全卷適應紙質環境下的檔案管理,元數據適應比特時代的電子檔案管理。通過它們可以對檔案或文件進行合理的管理,便於著錄、檢索和利用,節省人力物力,便於工作的開展。2.兩者分開管理。全卷要求單獨存放,不能作為原全卷的文件。盡管元數據和文件封裝在壹個實體中,並且在邏輯上作為壹個整體保存,但它們在物理上與文件分開保存。因此,筆者贊同這樣的觀點,即“元數據”並不是壹個新生事物。在中國的紙張環境中,“元數據”的思想已經萌芽。“元數據”是結合比特時代文件特點的工具。通過捕獲文件的背景信息,記錄文件形成、處理、保管、利用和最終處置過程中的文件工作,起到解釋、管理、檢索、憑證等多重作用。在信息時代,文件的證據功能成為最受關註的問題。匹茲堡項目順應社會趨勢,選擇需要的元數據,註重證據功能。它認為應該捕獲的元數據包括與文檔相關的結構信息、內容信息、背景信息和業務規則信息。同時抓取文件和元數據,特別是系統可以自動抓取信息,極大的改變了元數據的質量。匹茲堡項目建議,元數據和文件內容的捕獲可以通過“封裝”來完成,即將文件及其元數據放在壹個計算機文檔中。元數據與文件有明確的聯系,保證了文件及其元數據不會隨著時間的變化而分離,保證了文件不會被隨意更改和破壞。同時,在檢索文件時,因為檢索的是文件和所有相關信息,所以文件本身可以“自描述”。大多數元數據並不唯壹地對應於壹個文件,而是應用於壹系列文件。因此,產生了存儲在文件存儲系統中的大量拷貝信息。這給元數據的管理和控制帶來了極大的不便。這個問題需要進壹步解決。在比特時代,文件的不同功能需要不同的元數據來保證。學習元數據,首先要了解元數據對應的功能。這是壹個新興的熱點問題,期待更多的關註。