可是,等我第二天的時候壹看,什麽?還沒處理完,當前的數據處理速度變成了壹秒5個左右,然後還需要等待300個小時。
然後就查了壹下這個問題,原來同樣也有很多人在處理大數據的時候遇到了這個問題,大多數的文章分析的原因都是說由於GC(垃圾回收)造成的性能下降。
Python的垃圾回收機制的工作原理為每個對象維護壹個引用計數,每次內存對象的創建與銷毀都必須修改引用計數,從而在大量的對象創建時,需要大量的執行修改引用計數操作,對於程序執行過程中,額外的性能開銷是令人可怕的。回收的觸發時機有兩種可能,壹是用戶主動調用gc.collect(),二是對象數量超過閾值。
所以正是GC拖慢了程序的性能,所以我們可以考慮在處理的時候禁止垃圾回收。
通過這樣的改進之後速度確度會有很大的提升。但是又有也會另外的壹個問題,內存溢出,由於運行的過程中生成大量的對象,壹次使用後就沒有了引用,由於關閉了垃圾回收機制,壹直存在內存中得不到清理,然後程序的內存使用量越來越大。解決的方法就是定期打開gc.enable()再關閉或者主動調用gc.collect(),這樣就可以了。
通過上述的改進後程序確實了很多,可是我的程序還是運行的越來越慢,我都懷疑人生了,然後分別測試了各個步驟所花費的時間才知道了原因,我使用了pandas創建壹個DataFrame,然後每次叠代得到的結果都添加新的數據到DataFrame中,隨著裏邊的數據越來越多,添加的速度也就越來越慢了,嚴重的拖累的運行速度。這裏的解決方法有兩個:
1 分段保存結果,間隔壹段時間就保存壹次結果,最後再將多次的結果合並。
2 換壹個數據存儲方法,我是直接使用了python的字典進行保存結果,它隨著數據的增多添加的速度也會變慢,但是差別不是很大,在可接受的範圍內,可以使用;或者再加上方法1,分段進行保存再合並也是可以的。