當前位置:成語大全網 - 書法字典 - 數據分析過程

數據分析過程

循環到第二步到第四步,分析數據,根據圖表得出結論,完成文章。

數據準備

獲取數據(爬蟲、數據倉庫)、驗證數據、清理數據(缺失值、離群值、垃圾郵件、規範化、重復記錄、特殊值、合並數據集)、使用python讀取csv或txt文件以方便數據文件的操作(I/O和文件字符串處理、逗號分隔)、采樣(當數據較大時)。密鑰是隨機的)、存儲和歸檔。

數據觀察

單變量:點圖和抖動圖;直方圖和核密度估計;累積分布函數;兩個變量:散點圖、黃土平滑、殘差分析、對數圖和傾斜;多變量:假彩色地圖,馬賽克地圖,平行左地圖。

數據建模

計算和估計(平衡可行性和成本消耗)、縮放參數模型(縮放維度優化問題)、建立概率模型(與已知模型相比的二項式、高斯、冪律、幾何、泊松分布)。

數據挖掘技術

選擇合適的機器學習算法(蒙特卡洛模擬、相似性計算、主成分分析),考慮對大數據使用Map/Reduce,得出結論,並繪制最終圖表。