數據分析過程

循環到第二步到第四步，分析數據，根據圖表得出結論，完成文章。

數據準備

獲取數據（爬蟲、數據倉庫）、驗證數據、清理數據（缺失值、離群值、垃圾郵件、規範化、重復記錄、特殊值、合並數據集）、使用python讀取csv或txt文件以方便數據文件的操作（I/O和文件字符串處理、逗號分隔）、采樣（當數據較大時）。密鑰是隨機的）、存儲和歸檔。

數據觀察

單變量:點圖和抖動圖；直方圖和核密度估計；累積分布函數；兩個變量:散點圖、黃土平滑、殘差分析、對數圖和傾斜；多變量:假彩色地圖，馬賽克地圖，平行左地圖。

數據建模

計算和估計（平衡可行性和成本消耗）、縮放參數模型（縮放維度優化問題）、建立概率模型（與已知模型相比的二項式、高斯、冪律、幾何、泊松分布）。

數據挖掘技術

選擇合適的機器學習算法（蒙特卡洛模擬、相似性計算、主成分分析），考慮對大數據使用Map/Reduce，得出結論，並繪制最終圖表。