重要提醒
如果妳打算自己寫壹段代碼來進行密碼hash,那麽趕緊停下吧。這樣太容易犯錯了。這個提醒適用於每壹個人,不要自己寫密碼的hash算法 !關於保存密碼的問題已經有了成熟的方案,那就是使用phpass或者本文提供的源碼。
什麽是hash
hash("hello") = 2cf24dba5fb0a30e26e83b2ac5b9e29e1b161e5c1fa7425e73043362938b9824
hash("hbllo") = 58756879c05c68dfac9866712fad6a93f8146f337a69afe7dd238f3364946366
hash("waltz") = c0e81794384491161f1777c232bc6bd9ec38f616560b120fda8e90f383853542
Hash算法是壹種單向的函數。它可以把任意數量的數據轉換成固定長度的“指紋”,這個過程是不可逆的。而且只要輸入發生改變,哪怕只有壹個bit,輸出的hash值也會有很大不同。這種特性恰好合適用來用來保存密碼。因為我們希望使用壹種不可逆的算法來加密保存的密碼,同時又需要在用戶登陸的時候驗證密碼是否正確。
在壹個使用hash的賬號系統中,用戶註冊和認證的大致流程如下:
1, 用戶創建自己的賬號
2, 用戶密碼經過hash操作之後存儲在數據庫中。沒有任何明文的密碼存儲在服務器的硬盤上。
3, 用戶登陸的時候,將用戶輸入的密碼進行hash操作後與數據庫裏保存的密碼hash值進行對比。
4, 如果hash值完全壹樣,則認為用戶輸入的密碼是正確的。否則就認為用戶輸入了無效的密碼。
5, 每次用戶嘗試登陸的時候就重復步驟3和步驟4。
在步驟4的時候不要告訴用戶是賬號還是密碼錯了。只需要顯示壹個通用的提示,比如賬號或密碼不正確就可以了。這樣可以防止攻擊者枚舉有效的用戶名。
還需要註意的是用來保護密碼的hash函數跟數據結構課上見過的hash函數不完全壹樣。比如實現hash表的hash函數設計的目的是快速,但是不夠安全。只有加密hash函數(cryptographic hash functions)可以用來進行密碼的hash。這樣的函數有SHA256, SHA512, RipeMD, WHIRLPOOL等。
壹個常見的觀念就是密碼經過hash之後存儲就安全了。這顯然是不正確的。有很多方式可以快速的從hash恢復明文的密碼。還記得那些md5破解網站吧,只需要提交壹個hash,不到壹秒鐘就能知道結果。顯然,單純的對密碼進行hash還是遠遠達不到我們的安全需求。下壹部分先討論壹下破解密碼hash,獲取明文常見的手段。
如何破解hash
字典和暴力破解攻擊(Dictionary and Brute Force Attacks)
最常見的破解hash手段就是猜測密碼。然後對每壹個可能的密碼進行hash,對比需要破解的hash和猜測的密碼hash值,如果兩個值壹樣,那麽之前猜測的密碼就是正確的密碼明文。猜測密碼攻擊常用的方式就是字典攻擊和暴力攻擊。
Dictionary Attack
Trying apple : failed
Trying blueberry : failed
Trying justinbeiber : failed
...
Trying letmein : failed
Trying s3cr3t : success!
字典攻擊是將常用的密碼,單詞,短語和其他可能用來做密碼的字符串放到壹個文件中,然後對文件中的每壹個詞進行hash,將這些hash與需要破解的密碼hash比較。這種方式的成功率取決於密碼字典的大小以及字典的是否合適。
Brute Force Attack
Trying aaaa : failed
Trying aaab : failed
Trying aaac : failed
...
Trying acdb : failed
Trying acdc : success!
暴力攻擊就是對於給定的密碼長度,嘗試每壹種可能的字符組合。這種方式需要花費大量的計算機時間。但是理論上只要時間足夠,最後密碼壹定能夠破解出來。只是如果密碼太長,破解花費的時間就會大到無法承受。
目前沒有方式可以阻止字典攻擊和暴力攻擊。只能想辦法讓它們變的低效。如果妳的密碼hash系統設計的是安全的,那麽破解hash唯壹的方式就是進行字典或者暴力攻擊了。
查表破解(Lookup Tables)
對於特定的hash類型,如果需要破解大量hash的話,查表是壹種非常有效而且快速的方式。它的理念就是預先計算(pre-compute)出密碼字典中每壹個密碼的hash。然後把hash和對應的密碼保存在壹個表裏。壹個設計良好的查詢表結構,即使存儲了數十億個hash,每秒鐘仍然可以查詢成百上千個hash。
如果妳想感受下查表破解hash的話可以嘗試壹下在CraskStation上破解下下面的sha256 hash。
c11083b4b0a7743af748c85d343dfee9fbb8b2576c05f3a7f0d632b0926aadfc
08eac03b80adc33dc7d8fbe44b7c7b05d3a2c511166bdb43fcb710b03ba919e7
e4ba5cbd251c98e6cd1c23f126a3b81d8d8328abc95387229850952b3ef9f904
5206b8b8a996cf5320cb12ca91c7b790fba9f030408efe83ebb83548dc3007bd
反向查表破解(Reverse Lookup Tables)
Searching for hash(apple) in users' hash list... : Matches [alice3, 0bob0, charles8]
Searching for hash(blueberry) in users' hash list... : Matches [usr10101, timmy, john91]
Searching for hash(letmein) in users' hash list... : Matches [wilson10, dragonslayerX, joe1984]
Searching for hash(s3cr3t) in users' hash list... : Matches [bruce19, knuth1337, john87]
Searching for hash(z@29hjja) in users' hash list... : No users used this password
這種方式可以讓攻擊者不預先計算壹個查詢表的情況下同時對大量hash進行字典和暴力破解攻擊。
首先,攻擊者會根據獲取到的數據庫數據制作壹個用戶名和對應的hash表。然後將常見的字典密碼進行hash之後,跟這個表的hash進行對比,就可以知道用哪些用戶使用了這個密碼。這種攻擊方式很有效果,因為通常情況下很多用戶都會有使用相同的密碼。
彩虹表 (Rainbow Tables)
彩虹表是壹種使用空間換取時間的技術。跟查表破解很相似。只是它犧牲了壹些破解時間來達到更小的存儲空間的目的。因為彩虹表使用的存儲空間更小,所以單位空間就可以存儲更多的hash。彩虹表已經能夠破解8位長度的任意md5hash。彩虹表具體的原理可以參考/
下壹章節我們會討論壹種叫做“鹽”(salting)的技術。通過這種技術可以讓查表和彩虹表的方式無法破解hash。
加鹽(Adding Salt)
hash("hello") = 2cf24dba5fb0a30e26e83b2ac5b9e29e1b161e5c1fa7425e73043362938b9824
hash("hello" + "QxLUF1bgIAdeQX") = 9e209040c863f84a31e719795b2577523954739fe5ed3b58a75cff2127075ed1
hash("hello" + "bv5PehSMfV11Cd") = d1d3ec2e6f20fd420d50e2642992841d8338a314b8ea157c9e18477aaef226ab
hash("hello" + "YYLmfY6IehjZMQ") = a49670c3c18b9e079b9cfaf51634f563dc8ae3070db2c4a8544305df1b60f007
查表和彩虹表的方式之所以有效是因為每壹個密碼的都是通過同樣的方式來進行hash的。如果兩個用戶使用了同樣的密碼,那麽壹定他們的密碼hash也壹定相同。我們可以通過讓每壹個hash隨機化,同壹個密碼hash兩次,得到的不同的hash來避免這種攻擊。
具體的操作就是給密碼加壹個隨即的前綴或者後綴,然後再進行hash。這個隨即的後綴或者前綴成為“鹽”。正如上面給出的例子壹樣,通過加鹽,相同的密碼每次hash都是完全不壹樣的字符串了。檢查用戶輸入的密碼是否正確的時候,我們也還需要這個鹽,所以鹽壹般都是跟hash壹起保存在數據庫裏,或者作為hash字符串的壹部分。
鹽不需要保密,只要鹽是隨機的話,查表,彩虹表都會失效。因為攻擊者無法事先知道鹽是什麽,也就沒有辦法預先計算出查詢表和彩虹表。如果每個用戶都是使用了不同的鹽,那麽反向查表攻擊也沒法成功。
下壹節,我們會介紹壹些鹽的常見的錯誤實現。
錯誤的方式:短的鹽和鹽的復用
最常見的錯誤實現就是壹個鹽在多個hash中使用或者使用的鹽很短。
鹽的復用(Salt Reuse)
不管是將鹽硬編碼在程序裏還是隨機壹次生成的,在每壹個密碼hash裏使用相同的鹽會使這種防禦方法失效。因為相同的密碼hash兩次得到的結果還是相同的。攻擊者就可以使用反向查表的方式進行字典和暴力攻擊。只要在對字典中每壹個密碼進行hash之前加上這個固定的鹽就可以了。如果是流行的程序的使用了硬編碼的鹽,那麽也可能出現針對這種程序的這個鹽的查詢表和彩虹表,從而實現快速破解hash。
用戶每次創建或者修改密碼壹定要使用壹個新的隨機的鹽
短的鹽
如果鹽的位數太短的話,攻擊者也可以預先制作針對所有可能的鹽的查詢表。比如,3位ASCII字符的鹽,壹***有95x95x95 = 857,375種可能性。看起來好像很多。假如每壹個鹽制作壹個1MB的包含常見密碼的查詢表,857,375個鹽才是837GB。現在買個1TB的硬盤都只要幾百塊而已。
基於同樣的理由,千萬不要用用戶名做為鹽。雖然對於每壹個用戶來說用戶名可能是不同的,但是用戶名是可預測的,並不是完全隨機的。攻擊者完全可以用常見的用戶名作為鹽來制作查詢表和彩虹表破解hash。
根據壹些經驗得出來的規則就是鹽的大小要跟hash函數的輸出壹致。比如,SHA256的輸出是256bits(32bytes),鹽的長度也應該是32個字節的隨機數據。
錯誤的方式:雙重hash和古怪的hash函數
這壹節討論另外壹個常見的hash密碼的誤解:古怪的hash算法組合。人們可能解決的將不同的hash函數組合在壹起用可以讓數據更安全。但實際上,這種方式帶來的效果很微小。反而可能帶來壹些互通性的問題,甚至有時候會讓hash更加的不安全。本文壹開始就提到過,永遠不要嘗試自己寫hash算法,要使用專家們設計的標準算法。有些人會覺得通過使用多個hash函數可以降低計算hash的速度,從而增加破解的難度。通過減慢hash計算速度來防禦攻擊有更好的方法,這個下文會詳細介紹。
下面是壹些網上找到的古怪的hash函數組合的樣例。
md5(sha1(password))
md5(md5(salt) + md5(password))
sha1(sha1(password))
sha1(str_rot13(password + salt))
md5(sha1(md5(md5(password) + sha1(password)) + md5(password)))
不要使用他們!
註意:這部分的內容其實是存在爭議的!我收到過大量郵件說組合hash函數是有意義的。因為如果攻擊者不知道我們用了哪個函數,就不可能事先計算出彩虹表,並且組合hash函數需要更多的計算時間。
攻擊者如果不知道hash算法的話自然是無法破解hash的。但是考慮到Kerckhoffs’s principle,攻擊者通常都是能夠接觸到源碼的(尤其是免費軟件和開源軟件)。通過壹些目標系統的密碼–hash對應關系來逆向出算法也不是非常困難。
如果妳想使用壹個標準的”古怪”的hash函數,比如HMAC,是可以的。但是如果妳的目的是想減慢hash的計算速度,那麽可以讀壹下後面討論的慢速hash函數部分。基於上面討論的因素,最好的做法是使用標準的經過嚴格測試的hash算法。
hash碰撞(Hash Collisions)
因為hash函數是將任意數量的數據映射成壹個固定長度的字符串,所以壹定存在不同的輸入經過hash之後變成相同的字符串的情況。加密hash函數(Cryptographic hash function)在設計的時候希望使這種碰撞攻擊實現起來成本難以置信的高。但時不時的就有密碼學家發現快速實現hash碰撞的方法。最近的壹個例子就是MD5,它的碰撞攻擊已經實現了。
碰撞攻擊是找到另外壹個跟原密碼不壹樣,但是具有相同hash的字符串。但是,即使在相對弱的hash算法,比如MD5,要實現碰撞攻擊也需要大量的算力(computing power),所以在實際使用中偶然出現hash碰撞的情況幾乎不太可能。壹個使用加鹽MD5的密碼hash在實際使用中跟使用其他算法比如SHA256壹樣安全。不過如果可以的話,使用更安全的hash函數,比如SHA256, SHA512, RipeMD, WHIRLPOOL等是更好的選擇。
正確的方式:如何恰當的進行hash
這部分會詳細討論如何恰當的進行密碼hash。第壹個章節是最基礎的,這章節的內容是必須的。後面壹個章節是闡述如何繼續增強安全性,讓hash破解變得異常困難。
基礎:使用加鹽hash
我們已經知道惡意黑客可以通過查表和彩虹表的方式快速的獲得hash對應的明文密碼,我們也知道了通過使用隨機的鹽可以解決這個問題。但是我們怎麽生成鹽,怎麽在hash的過程中使用鹽呢?
鹽要使用密碼學上可靠安全的偽隨機數生成器(Cryptographically Secure Pseudo-Random Number Generator (CSPRNG))來產生。CSPRNG跟普通的偽隨機數生成器比如C語言中的rand(),有很大不同。正如它的名字說明的那樣,CSPRNG提供壹個高標準的隨機數,是完全無法預測的。我們不希望我們的鹽能夠被預測到,所以壹定要使用CSPRNG。