最近偶爾也在想。數據測試能更進壹步嗎?如何利用現有技能對海量數據進行綜合分析,找出數據質量問題或幫助數據分析師找到邏輯漏洞?
或者,可以轉型做數據分析師嗎?想了很多,思路有點亂。於是我冷靜下來,不再做夢。我先做點東西看看,再評估自己有沒有這個能力和資格。
學Python的熊貓模塊花了1周。我按照學習的例子,邊學邊練,慢慢的就感覺到來了。對熊貓有了基本的了解後,我在尋找突破點。我覺得我不能只是按照樣本代碼壹直敲下去,沒有意義。
我必須將我對熊貓的了解應用到公司現有的業務中。剛開始的時候,妳至少可以簡單的開始分析壹個數據表的壹個指標。於是按照這個思路,我開始探索測試中的_of_room_nights指數的數據分析。test _ resv 001 _ room _ daily _ df表。
1,hivesql數據準備
Hivesql內容描述:
從上面的hivesql語句中可以看出,該sql的目的是根據hotel_code_new,在2019的每個月中,找出hotel_code_new為' cnszv002 ',' cwh ',' cwsw ',' ESL '和' fij '的房間數指標的總和。
2.代碼實現
3.蜂巢數據庫all_data的數據結構查詢結果。
4.在代碼實現2中打印(df)輸出結果。
手工校對通過,與hivesql輸出結果壹致。
5.繪制dataframe數據結構的測向數據,生成趨勢圖。
不帶任何參數調用df.plot()的趨勢圖如下:
上面的折線圖顯示了當前月份值和歷史月份值的累計和。
當調用df.plot(kind='bar ')時,帶有參數kind='bar '的趨勢圖如下:
上面的條形圖顯示了當前月份值和歷史月份值的累計和。
兩個圖只是表現了形式上的區別,都可以反映出2019和12兩個月各不同hotel_code_new的當月和歷史月份的_of_room_nights的累計和的數據分布,可以說是簡單的數據分析。
6.將dataframe數據寫入csv文件。
Room_nts.csv內容如下:
7.讀取csv文件中的數據幀數據。
8.將dataframe多維數據存儲在excel中。
在room_nts.xlsx文件中,工作表名稱為room_nts的內容如下:
9.從excel讀取dataframe多維數據。
總結
今天分享的數據分析內容比較基礎,主要是將學到的技能與業務相結合的初步探索。後面還需要繼續摸索學習,思考學習到的技能並運用到實際的項目業務中,才能走的更遠。