內容介紹
目錄
第1章Python數據分析概述1
任務1.1了解數據分析1
1.1.1掌握數據分析的概念2
1.1.2掌握數據分析的流程2
1.1.3了解數據分析應用場景4
任務1.2熟悉Python數據分析工具5
1.2.1了解數據分析常用工具6
1.2.2了解Python數據分析的優勢7
1.2.3了解Python數據分析常用類庫7
任務1.3安裝Python的Anaconda版本9
1.3.1了解Python的Anaconda第9版
1.3.2在Windows系統中安裝Anaconda 9
1.3.3在Linux系統中安裝Anaconda 12。
任務1.4掌握Jupyter筆記本14的常用功能
掌握木星筆記本的基本功能14
1.4.2掌握Jupiter記事本的高級功能16
匯總19
課後練習19
第二章NumPy數值計算基礎21
任務2.1控制NumPy數組對象ndarray 21
創建壹個數組對象21
2.1.2生成隨機數27
2.1.3按索引訪問數組29
2.1.4轉換數組的形式31
任務2.2掌握NumPy矩陣和壹般函數34
2.2.1創建NumPy矩陣34
2.2.2掌握ufunc功能37
任務2.3使用NumPy 41進行統計分析
2.3.1讀/寫文件41
2.3.2使用函數的簡單統計分析44
任務實現48
概要50
培訓50
練習1創建壹個數組並執行操作50
練習2創建棋盤50
課後練習51
第3章Matplotlib數據可視化基礎52
任務3.1掌握基本語法和制圖52的常用參數
3.1.1掌握pyplot 53的基本語法
3.1.2設置pyplot 56的動態rc參數
任務3.2分析特征之間的關系59
繪制散點圖59
3.2.2繪制折線圖62
任務實現65
任務3.3分析內部數據分布和特征分散68
3.3.1繪制直方圖68
3.3.2繪制餅圖70
3.3.3畫出方框圖71
任務實現73
概要77
培訓78
訓練1分析1996 2015人口數據特征78
練習2分析1996到2015人口數據的各種特征的分布和離散。
課後練習79
第4章熊貓統計分析基礎80頁
任務4.1從不同數據源讀取/寫入數據80
4.1.1讀/寫數據庫數據80
4.1.2讀/寫文本文件83
4.1.3讀/寫Excel文件87
4.1.4任務實現88
任務4.2掌握數據幀89的常見操作
查看數據幀89的共同屬性
4.2.2檢查、修改、添加和刪除數據幀數據91。
4.2.3描述和分析數據幀101。
4.2.4任務實現104
任務4.3轉換和處理時間序列數據107
4.3.1轉換字符串的時間是107。
4.3.2提取時間序列數據信息109
4.3.3加減時間數據110
4.3.4任務實現111
任務4.4使用組聚合進行組內計算113
4.4.1使用groupby方法拆分數據114。
4.4.2使用聚集方法聚集數據116。
4.4.3通過應用方法聚合數據119。
4.4.4使用轉換方法121聚合數據。
4.4.5任務實現121
任務4.5創建數據透視表和交叉表123
4.5.1使用pivot_table函數創建透視表123。
4.5.2使用交叉表函數創建交叉表127。
4.5.3任務實現128
匯總130
培訓130
培訓1閱讀查看P2P網貸數據主表基本信息130
在練習2中,提取用戶信息更新表和登錄信息表的時間信息130。
在練習3中,通過分組聚集方法進壹步分析用戶信息更新表和登錄信息表131。
在練習4中,用戶信息更新表和登錄信息表被轉換為長表和短表131。
課後鍛煉131
第5章使用pandas進行數據預處理133
任務5.1合並數據133
5.1.1堆疊合並數據133
5.1.2主鍵合並數據136
5.1.3合並數據重疊139
5.1.4任務實現140
任務5.2清理數據141
5.2.1重復值的檢測和處理
5.2.2缺失值的檢測和處理146
5.2.3異常值的檢測和處理149
5.2.4任務實現152
任務5.3標準化數據154
5.3.1偏差標準化數據154
5.3.2標準偏差標準化數據155
5.3.3十進制校準標準化數據156
5.3.4任務實現157
任務5.4轉換數據158
5.4.1虛擬變量處理類別數據158
5.4.2離散連續數據160
5.4.3任務實現162
匯總163
培訓164
訓練1內插用戶用電數據缺失值164
練習2合並線損、用電趨勢和線路告警數據164
訓練3標準化建模專家樣本數據164
課後練習165
第6章使用scikit-learn構建模型167。
任務6.1用sklearn轉換器處理數據167。
6.1.1在數據集模塊中加載數據集167。
6.1.2將數據集分為訓練集和測試集170。
6.1.3使用sklearn converter65438進行數據預處理和降維172
6.1.4任務實現174
任務6.2構建和評估聚類模型176
6.2.1使用sklearn估計器建立聚類模型176。
6.2.2評估集群模型179
6.2.3任務實現182
任務6.3建立和評估分類模型183
6.3.1使用sklearn估計器建立分類模型183。
6.3.2評價分類模型186
6.3.3任務實現188
任務6.4建立並評估回歸模型190
6.4.1使用sklearn估計量建立線性回歸模型190。
6.4.2評估回歸模型193
6.4.3任務實現194
匯總196
培訓196
訓練1使用sklearn處理葡萄酒和葡萄酒_質量數據集196。
練習2:基於葡萄酒數據集196構建K-Means聚類模型。
練習3:基於葡萄酒數據集197構建SVM分類模型。
練習4:基於wine_quality數據集197建立回歸模型。
課後練習198
第七章航空公司客戶價值分析199
任務7.1了解航空公司現狀和客戶價值分析199
7.1.1了解航空公司現狀200
7.1.2了解客戶價值分析201
7.1.3熟悉航空客戶價值分析的步驟和流程201
任務7.2預處理航空公司客戶數據202
7.2.1處理缺失數據和異常數據202
7.2.2建立航空客戶價值分析的關鍵特征202
7.2.3標準化LRFMC模型206的五個特征
任務實現207
任務7.3使用K均值算法進行客戶分組209
7.3.1了解K均值聚類算法209
7.3.2聚類結果分析210
7.3.3模型應用213
7.3.4任務實現214
匯總215
培訓215
培訓1處理信用卡數據異常值215
練習2構建信用卡客戶風險評估的關鍵特征217
練習3構建K均值聚類模型218
課後練習218
第八章財政收入預測與分析220頁
任務8.1了解財政收入預測的背景和方法220
8.1.1財政收入預測背景分析220
8.1.2理解財政收入預測的方法222
8.1.3熟悉財政收入預測的步驟和流程223
任務8.2分析財政收入數據特征的相關性223
8.2.1理解相關性分析223
計算結果的分析224
任務實現225
任務8.3使用Lasso回歸選擇財政收入預測的關鍵特征225
8.3.1理解拉索回歸法226
8 . 3 . 2 Lasso回歸結果分析227
8.3.3任務實現
任務8.4使用灰色預測和支持向量回歸構建財政收入預測模型228
理解灰色預測算法228
8.4.2理解SVR算法229
8.4.3分析和預測結果232
任務實現234
概要236
培訓236
練習1求企業所得稅特征之間的相關系數236
練習2選擇企業所得稅預測的關鍵特性237
練習3:構建企業所得稅預測模型237
課後練習237
第九章家用熱水器用戶行為分析和事件識別239
任務9.1了解家用熱水器用戶行為分析的背景和步驟239
9.1.1國內熱水器行業現狀分析240
9.1.2了解熱水器240采集數據的基本情況
9.1.3熟悉家用熱水器用戶行為分析的步驟和流程241
任務9.2預處理熱水器用戶的用水量數據242
刪除多余的特征242
9.2.2劃分用水事件243
9.2.3確定單次用水事件的持續時間閾值244
任務實現246
任務9.3構建用水行為特征和篩選用水事件247
9.3.1施工用水持續時間和頻率特征248
9.3.2施工用水量及波動特征249
9.3.3篩選候選遊泳項目250
9.3.4任務實現251
任務9.4為行為事件分析建立BP神經網絡模型255
9.4.1了解BP神經網絡算法的原理255
9.4.2建築模型259
9.4.3評估模型260
任務實現260
概要263
培訓263
培訓1清潔操作員客戶數據263
練習2篩選客戶操作員數據264
練習3建立神經網絡預測模型265
課後練習265
附錄A 267
附錄B 270
參考文件295
學習筆記
Jupyter Notebook(原名IPython notebook)是壹款交互式筆記本,支持運行40多種編程語言。Jupyter Notebook的本質是壹個Web應用,方便創作和* * *享受文學程序文檔,支持實時代碼、數學方程、可視化和markdown。用途包括:數據清洗和轉換、數值模擬、統計建模、機器學習等。定義(推薦學習:Python視頻教程)用戶可以通過電子郵件、Dropbox、GitHub、Jupyter筆記本查看器與他人分享Jupiter筆記本。在Jupyter Notebook中,代碼可以實時生成圖像、視頻、LaTeX和JavaScript。數據挖掘領域最火的競賽Kaggle中的數據是Jupyter格式的。架構Jupiter組件Jupiter包含以下組件:Jupyter筆記本和...
本文給出了壹個用Python實現的微信好友數據分析功能的例子。分享給大家,供大家參考,如下:這裏主要用python對個人微信好友進行分析,並將結果輸出到壹個html文檔中。主要使用的python包有itchat,pandas,pyecharts等1,安裝itchat微信的python sdk,獲取個人友情。得到的代碼如下:import itchat import panda as PD from pye charts import geo,barit chat . log in()friends = it chat . get _ friends(update = True)[0:]def User 2 dict(User):User _ dict = { } User _ dict[" NickName "]= User[" NickName "]if User[" NickName "]else " NaN " User _ dict[" City "]= User[" City "]if User[" City "]else " NaN " User _ dict[" Sex "]= User[" Sex "]if
基於微信開放個人號接口的python庫Itchat,實現了微信好友的獲取,並對省份、性別、微信簽名進行數據分析。效果:直接編碼,構建三個空文本文件:stopwords.txt、newdit.txt、unionWords.txt,下載字體simhei.ttf或者刪除字體所需的代碼,就可以直接運行了。# wx friends . py 2065 438+08-07-09 import itchat import sys import pandas as PD import matplotlib . py plot as PLT PLT . rcparams[' font . sans-serif ']=[' sim hei ']# Chinese PLT . rcparams[' axes . unicode _ MINUS ']= false #繪制時可以顯示。中國進口。可能是來自scipy的贗品。誤導入imread from word cloud導入wordcloud from osimport路徑#畫圖時會顯示。解決編碼問題non _ BMP _ map = dict . from keys(range(0x 10000,sys.maxunicode+1),0xfffd) # Get friends信息def get friends():...
壹個雙色球的例子,用於Python數據分析,基於線性回歸算法預測下次中獎結果
本文以Python數據分析為例,基於線性回歸算法預測下壹次中獎結果。我分享給妳,供妳參考。具體如下:我已經描述了關於雙色球的各種算法。在這裏,我來預測下壹期雙色球的號碼。想想都有點激動。代碼中使用了線性回歸算法。這個場景用的就是這個算法,預測效果壹般。可以考慮用其他算法試試結果。我發現以前很多代碼都是重復性的工作。為了讓代碼看起來更優雅,我定義了壹個函數,調用它,突然就高大上了#!/usr/bin/python# -*-編碼:UTF-8 -*-#導入所需的包導入熊貓as PD導入numpy as NP導入mapplotlib.py plot as PLT導入運算符從sklearn導入數據集,從sklearn.linear _ model導入邏輯回歸#讀取文件d...
以上就是這次介紹的Python數據電子書的所有相關內容。希望我們整理的資源可以幫助到大家,感謝大家對鬼鬼的支持。
註意:訪問方法:私人消息(666)