大數據時代帶來了海量、多樣、非結構化的數據,我們得以進行更加廣泛且深入的分析,但這必須建立在高質量的數據上才有意義。本期以企業級的視角,介紹數據質量的評價、提升與監控。
大數據的時代,數據資產及其價值利用能力逐漸成為構成企業核心競爭力的關鍵要素;然而,大數據應用必須建立在質量可靠的數據之上才有意義,建立在低質量甚至錯誤數據之上的應用有可能與其初心南轅北轍背道而馳。因此,數據質量正是企業應用數據的瓶頸,高質量的數據可以決定數據應用的上限,而低質量的數據則必然拉低數據應用的下限。
數據質量壹般指數據能夠真實、完整反映經營管理實際情況的程度,通常可在以下幾個方面衡量和評價:
準確性:數據在系統中的值與真實值相比的符合情況,數據應符合業務規則和統計口徑。常見數據準確性問題如:
與實際情況不符:數據來源存在錯誤,難以通過規範進行判斷與約束;
與業務規範不符:在數據的采集、使用、管理、維護過程中,業務規範缺乏或執行不力,導致數據缺乏準確性。
完整性:數據的完備程度。常見數據完整性問題如:
系統已設定字段,但在實際業務操作中並未完整采集該字段數據,導致數據缺失或不完整;
系統未設定字段:存在數據需求,但未在系統中設定對應的取數字段。
壹致性:系統內外部數據源之間的數據壹致程度,數據是否遵循了統壹的規範,數據集合是否保持了統壹的格式。常見壹致性問題如:
缺乏系統聯動或聯動出錯:系統間應該相同的數據卻不壹致,缺乏必要的聯動和核對。
及時性:數據在采集、傳送、處理等環節快速支持應用的程度,考察數據的時間特性對應用的滿足程度。及時性關系到系統能否在規定的時間內獲取到系統需要的特定時間產生的數據,以完成系統功能。常見及時性問題如:
缺乏時效性:未按照規定的數據更新時間要求對數據進行更新。
可用性:用來衡量數據項整合和應用的可用程度。常見可用性問題如:
缺乏應用功能,沒有相關的數據處理、加工規則或數據模型的應用功能,獲取目標數據;
缺乏整合***享,數據分散,不易有效整合和***享。
其他衡量標準再如有效性可考慮對數據格式、類型、標準的遵從程度,合理性可考慮數據符合邏輯約束的程度。此前壹項對某企業數據質量問題進行的調研顯示常見數據質量問題中準確性問題占33%,完整性問題占28%,可用性問題占24%,壹致性問題占8%,在壹定程度上代表了國內企業面臨的數據問題。
提高數據質量的首要任務是定義壹套標準化的數據規範,對具體數據項的定義、口徑、格式、取值、單位等進行規範說明,形成對該數據項的具體質量要求。依托這套規範作為衡量和提高數據質量的標尺,可在數據采集、加工和應用的各環節對關鍵數據項進行預防性或監測性的核檢。廣義的企業級數據字典可以作為數據標準化規範的載體,對企業運營過程中涉及的數據項名稱、業務定義和規則等要素進行收錄、規範和編制,對數據項描述信息進行標準化處理,統壹定義對安全性和數據質量的要求,進而為業務運營提供可靠的數據服務、提高整體數據質量奠定基礎。理想情況下廣義的企業級數據字典是完備的,企業各系統全部數據項都被數據字典收錄,不存在同名不同義或同義不同名的情況。與此相對,狹義的數據字典通常是針對單壹系統的技術屬性標準,為單壹系統的開發和應用服務。
企業級數據字典通常分為三層:數據項、值域和域取值。數據項層面的規範主要包括名稱、業務規則定義、數據安全要求和數據質量要求等。
數據項名稱:包括數據項的中文名稱、英文名稱和英文簡稱,含義不同的數據項名稱不同,物理數據庫應沿用數據字典定義的全局唯壹的英文簡稱對字段命名
業務規則定義:包括數據的業務含義、轉換規則、加工規則等安全元數據:包含數據來源、所有者和訪問權限等安全要求的定義
數據質量要求:在數據規範定義基礎之上,提出滿足業務需要的數據長度、格式、取值、數據處理、勾稽關系等要求,以此作為數據質量管理的落腳點
值域可細分為代碼域、編碼域、文本域、金額域、數值域、時間域等。例如“出生地”數據項對應值域為“行政區劃”代碼域,引用國家標準GB-T2260-2016《中華人民***和國行政區劃代碼》,對應的域取值為該國標定義的代碼表。再如“借記卡號”數據項對應值域為“19位卡號”編碼域,定義16位卡號和19位卡號兩種編碼方式,不需列舉對應具體的域取值。
數據質量管理是指在數據創建、加工、使用和遷移等過程中,通過開展數據質量定義、過程控制、監測、問題分析和整改、評估與考核等壹系列管理活動,提高數據質量以滿足業務要求。數據質量管理工作遵循業務引領的原則,確定重點質量管控範圍,並動態調整階段性管控重點,持續優化。可按照“誰創建、誰負責;誰加工、誰負責;誰提供、誰負責”的原則界定數據質量管理責任,由數據流轉環節的各責任方對管轄範圍內的數據質量負責。對數據質量規則優先采取系統程序的自動化控制措施,並盡可能前移管控點,從源頭上控制數據質量。
數據質量監控點通常針對關鍵數據項設置實施,定義數據質量監控規則,生成監控報警,按嚴重性等級分級報告,由相應層級進行處理和響應。關鍵數據項根據經驗判斷,壹般影響較廣如涉及多業務條線,或應用於關鍵業務環節如合約簽訂、會計核算、績效分析、產品定價、資金收付等,或應用於內部經營管理、對外信息披露和行業監管要求,例如財務報告數據和新資本協議實施中明確提出的重要指標項。
數據質量監控點的控制手段分為預防型和監測型:
預防性控制防止錯誤數據的產生,壹般部署在數據采集點,用於控制手工輸入的源數據,以及批量導入的源數據校驗:
數據輸入校驗:例如貸款利率的輸入校驗;
數據閾值:例如數據非空,數據取值超出值域定義合理範圍,數據格式不符合標準等;
質量控制方式:系統自動校驗/雙人手工復核;
系統校驗方式:強制,如不符合規則無法通過。
監測型控制監測錯誤數據,發現數據質量問題進行報警。壹般部署在數據加工和應用環節,驗證數據完整性、壹致性和準確性等:
數據輸出校驗:例如貸款余額總分核對
數據壹致性:例如交易頭寸與總帳系統記錄的交易頭寸壹致
質量控制方式:系統自動校驗
系統校驗方式:非強制,錯誤及差異提示
對選定的關鍵數據項,需定義數據質量規則以及數據質量等級。數據質量等級可利用“閾值”和“容忍度”進行分級:
良好:數據項質量評分高於“閾值”
可容忍:數據項質量評分低於“閾值”,但高於“容忍度”
報警:數據項質量評分低於“容忍度”
嚴重報警:數據項的質量問題將帶來非常嚴重的影響,人工經驗判斷
關鍵數據項監控點的詳細信息應在企業級數據字典中維護更新,與其開發、實施和測試情況保持同步。
在進行數據質量分等級報告及響應糾錯時應遵守如下原則:
及時性。對導致數據質量等級進入“可容忍”、“報警”和“嚴重報警”狀態的數據質量事件能夠及時發現、報告和處理;
規範性:針對分級別的數據質量問題,匯報至利益相關方,配置相應資源;
高效性:數據質量問題,在分級別規定時間內被解決。應按照“可容忍”、“報警”和“嚴重報警”酌情規定響應時間;
有序性。在開展數據質量分等級報告工作時,應有序上報、統壹領導、分級負責。
部署在UDP層面的數據質量監控程序實時或定期監測關鍵數據項的質量,對其數據質量進行評分,通過比較該監控點的“閾值”和“容忍度”,將數據質量進行分級,對於非“良好”的評價結果,數據質量監控程序將發送報警消息通知數據質量管理人員。報警消息內容包括問題定位頭文件和具體描述。數據質量管理人員根據報警信息調查問題數據項,驗證報警內容,生成預警信息通知下遊用戶,同時填制糾錯工單通知相關責任人員。相關責任人員依據糾錯通知提示的具體內容,開展數據質量問題調查,提出數據質量改進需求和解決方案,由實施運維團隊在數據應用層面修正,或在數據采集和集成層面修正。若糾錯告警問題由數據質量要求過於嚴苛或控制規則錯誤引起,應修改關鍵數據項清單及其相關監控規則,並由實施運維團隊修改或取消已部署的對應監控點。