大廠也在用的 6種數據脫敏方案，別做泄密內鬼

老公最近連著幾天晚上在家總是接到壹些奇奇怪怪的電話，“哥，妳是 xxx 吧，我們這裏是 xxx 高端男士私人會所...”，老公壹楞，然後狠狠的罵了回去。壹臉傲嬌的轉過頭，面帶微笑稍顯諂媚：“老婆妳聽我說，我真的啥也沒幹，妳要相信我！”

啪~

過後揉揉臉細想想，肯定是哪個不道德的網站，又把老公的個人信息給賣了，現在的人上網都處於壹個裸奔的狀態，個人信息已不再屬於個人，時下這種事好像也見怪不怪了，不過，出現這種事大多是有內鬼。

而作為開發者的我們，能做的就是盡量避免經我們手的用戶數據泄露，那今天就來講講互聯網中內部防止隱私數據泄露的手段- 數據脫敏 。

先來看看什麽是數據脫敏？數據脫敏也叫數據的去隱私化，在我們給定脫敏規則和策略的情況下，對敏感數據比如 手機號 、 銀行卡號 等信息，進行轉換或者修改的壹種技術手段，防止敏感數據直接在不可靠的環境下使用。

像政府、醫療行業、金融機構、移動運營商是比較早開始應用數據脫敏的，因為他們所掌握的都是用戶最核心的私密數據，如果泄露後果是不可估量的。

數據脫敏的應用在生活中是比較常見的，比如我們在淘寶買東西訂單詳情中，商家賬戶信息會被用 * 遮擋，保障了商戶隱私不泄露，這就是壹種數據脫敏方式。

數據脫敏又分為靜態數據脫敏（ SDM ）和動態數據脫敏（ DDM ）：

靜態數據脫敏（SDM）：適用於將數據抽取出生產環境脫敏後分發至測試、開發、培訓、數據分析等場景。

有時我們可能需要將生產環境的數據copy到測試、開發庫中，以此來排查問題或進行數據分析，但出於安全考慮又不能將敏感數據存儲於非生產環境，此時就要把敏感數據從生產環境脫敏完畢之後再在非生產環境使用。

這樣脫敏後的數據與生產環境隔離，滿足業務需要的同時又保障了生產數據的安全。

如上圖所示，將用戶的真實姓名、 手機號 、 身份證 、 銀行卡號 通過替換、 無效化 、亂序、 對稱加密 等方案進行脫敏改造。

動態數據脫敏（DDM）：壹般用在生產環境，訪問敏感數據時實時進行脫敏，因為有時在不同情況下對於同壹敏感數據的讀取，需要做不同級別的脫敏處理，例如：不同角色、不同權限所執行的脫敏方案會不同。

註意：在抹去數據中的敏感內容同時，也需要保持原有的數據特征、業務規則和數據關聯性，保證我們在開發、測試以及數據分析類業務不會受到脫敏的影響，使脫敏前後的數據壹致性和有效性。 總之壹句話：妳愛怎麽脫就怎麽脫，別影響我使用就行 。

數據脫敏系統可以按照不同業務場景自行定義和編寫脫敏規則，可以針對庫表的某個敏感字段，進行數據的不落地脫敏。

數據脫敏的方式有很多種，接下來以下圖數據為準壹個壹個的演示每種方案。

無效化方案在處理待脫敏的數據時，通過對字段數據值進行截斷、加密、隱藏等方式讓敏感數據脫敏，使其不再具有利用價值。壹般采用特殊字符（ * 等）代替真值，這種隱藏敏感數據的方法簡單，但缺點是用戶無法得知原數據的格式，如果想要獲取完整信息，要讓用戶授權查詢。

比如我們將身份證號用 * 替換真實數字就變成了 "220724 ****** 3523"，非常簡單。

隨機值替換，字母變為隨機字母，數字變為隨機數字，文字隨機替換文字的方式來改變敏感數據，這種方案的優點在於可以在壹定程度上保留原有數據的格式，往往這種方法用戶不易察覺的。

我們看到 name 和 idnumber 字段進行了隨機化脫敏，而名字姓、氏隨機化稍有特殊，需要有對應姓氏字典數據支持。

數據替換與前邊的無效化方式比較相似，不同的是這裏不以特殊字符進行遮擋，而是用壹個設定的虛擬值替換真值。比如說我們將手機號統壹設置成 “13651300000”。

對稱加密是壹種特殊的可逆脫敏方法，通過加密密鑰和算法對敏感數據進行加密，密文格式與原始數據在邏輯規則上壹致，通過密鑰解密可以恢復原始數據，要註意的就是密鑰的安全性。

平均值方案經常用在統計場景，針對數值型數據，我們先計算它們的均值，然後使脫敏後的值在均值附近隨機分布，從而保持數據的總和不變。

對價格字段 price 做平均值處理後，字段總金額不變，但脫敏後的字段值都在均值 60 附近。

這種方式通過隨機移位改變數字數據，偏移取整在保持了數據的安全性的同時保證了範圍的大致真實性，比之前幾種方案更接近真實數據，在大數據分析場景中意義比較大。

比如下邊的日期字段 create_time 中 2020-12-08 15:12:25 變為 2018-01-02 15:00:00 。

數據脫敏規則在實際應用中往往都是多種方案配合使用，以此來達到更高的安全級別。

無論是靜態脫敏還是動態脫敏，其最終都是為了防止組織內部對隱私數據的濫用，防止隱私數據在未經脫敏的情況下從組織流出。所以作為壹個程序員不泄露數據是最起碼的操守。

相关文章