需要在非生產環境下對敏感信息進行數據脫敏,實現敏感隱私數據的可靠保護。
脫敏數據特征:
1.保持原有數據特征:例如身份證由17位數字本體碼和1位檢驗碼組成。
2.保持數據之間壹致性:出生年月和出生日期之間的關系。
3.保持業務規則的關聯性。
4.多次脫敏之間的數據壹致性。
脫敏的方法:
1.數據替換
要求:用設置的固定虛構值替換真值。例如將手機號碼統壹替換為 13800013800
2.無效化
要求:通過對數據值得截斷、加密、隱藏等方式使敏感數據脫敏,使其不再具有利用價值,例如將地址以 ****** 代替真值。數據無效化與數據替換所達成的效果基本類似。
3.隨機化
要求:用隨機數據代替真值,保持替換值的隨機性以模擬樣本的真實性。例如用隨機生成的姓和名代替真值。
註意這個例子中我們針對數據脫敏引入了外部字典表,實際情況中可以根據數據脫敏要求,隨時引入任意外部字典表,通過數據的隨機化組合,實現替換真值數據的脫敏處理。
4.偏移和取整
要求:通過隨機移位改變數字數據,例如日期 2018-01-02 8:12:25 變為 2018-01-02 8:00:00,偏移取整在保持了數據的安全性的同時保證了範圍的大致真實性,此項功能在大數據利用環境中具有重大價值。
5.掩碼屏蔽
要求:掩碼屏蔽是針對賬戶類數據的部分信息進行脫敏時的有力工具,比如銀行卡號或是身份證號的脫敏。將身份證號的出生日期進行掩碼屏蔽脫敏。使用left()函數截取身份證號的左邊 6 位 + 字符串 ********+right()函數截取身份證號右邊 4 位替換源身份證字符串。
6.靈活編碼
要求:在需要特殊脫敏規則時,可執行靈活編碼以滿足各種可能的脫敏規則。比如用固定字母和固定位數的數字替代合同編號真值。將合同編號進行自定義編碼脫敏。自定義編碼規則:4 位固定碼 + 當前年份 + 源目標字符串 4 位號碼 +9 位數值組成。
脫敏相關文章參考:/p/43d9882ed24a