數據準備
獲取數據(爬蟲、數據倉庫)、驗證數據、清理數據(缺失值、離群值、垃圾郵件、規範化、重復記錄、特殊值、合並數據集)、使用python讀取csv或txt文件以方便數據文件的操作(I/O和文件字符串處理、逗號分隔)、采樣(當數據較大時)。密鑰是隨機的)、存儲和歸檔。
數據觀察
單變量:點圖和抖動圖;直方圖和核密度估計;累積分布函數;兩個變量:散點圖、黃土平滑、殘差分析、對數圖和傾斜;多變量:假彩色地圖,馬賽克地圖,平行左地圖。
數據建模
計算和估計(平衡可行性和成本消耗)、縮放參數模型(縮放維度優化問題)、建立概率模型(與已知模型相比的二項式、高斯、冪律、幾何、泊松分布)。
數據挖掘技術
選擇合適的機器學習算法(蒙特卡洛模擬、相似性計算、主成分分析),考慮對大數據使用Map/Reduce,得出結論,並繪制最終圖表。