當前位置:成語大全網 - 漢語詞典 - 10 Python中的數據分析技巧。

10 Python中的數據分析技巧。

壹些提示和技巧可能非常有用,尤其是在編程領域。有時候用壹點黑客技術,不僅能節省時間,還能救“命”。

壹個小的快捷方式或附件有時是天賜之物,可以成為真正的生產力助推器。所以,這裏有壹些小技巧和竅門,有些可能是新的,但我相信它會讓妳在接下來的數據分析項目中非常方便。

熊貓數據框數據的剖析過程

Profiling (analyzer)是壹個幫助我們理解數據的過程,Pandas Profiling是壹個Python包,可以簡單快速的對Pandora的數據框數據進行探索性的數據分析。

熊貓中的函數df.describe()和df.info()可以實現EDA過程的第壹步。但是,它們只提供了數據的壹個非常基本的概述,對於大型數據集幫助不是很大。Pandas中的Profiling功能可以簡單地通過壹行代碼顯示大量信息,在交互式HTML報表中也是如此。

對於給定的數據集,Pandas中的分析包計算以下統計數據:

Pandas Profiling軟件包計算的統計信息包括直方圖、眾數、相關系數、分位數、描述性統計、其他信息類型、單變量值、缺失值等。

固定

用pip或conda安裝

pip安裝熊貓-剖析

康達安裝-c蟒蛇熊貓-剖析

使用

下面的代碼是用很久以前的Titanic數據集來演示多功能Python analyzer的結果。

#導入必要的包

進口熊貓作為pd

導入熊貓_簡介

df = pd.read_csv('泰坦尼克號/火車. csv ')

熊貓_側寫。輪廓報告

壹行代碼就可以在Jupyter筆記本中顯示完整的數據分析報告,非常詳細,包含必要的圖表信息。

您還可以使用以下代碼將報告導出到交互式HTML文件中。

簡介=熊貓_簡介。輪廓報告

profile . to _ file(output file = " Titanic data profiling . html ")

熊貓實現交互式繪圖

熊貓有內置的。plot()函數作為DataFrame類的壹部分。然而,使用該功能呈現的可視化不是交互式的,這使得它不太吸引人。同樣,用熊貓。數據框。plot()函數繪制圖表不能實現交互。如果我們需要在不對代碼進行重大修改的情況下繪制與熊貓的交互圖,該怎麽辦?這時候就可以用袖扣庫來實現了。

袖扣庫可以把功能強大的plotly和靈活多變的熊貓結合起來,非常方便繪圖。下面我們就來看看熊貓如何安裝和使用袖扣庫。

固定

pip安裝計劃

# Plotly是安裝袖扣的先決條件

pip安裝袖扣

使用

#進口熊貓

進口熊貓作為pd

#在離線模式下導入plotly和袖扣

進口袖扣作為cf

導入plotly.offline

cf.go_offline()

cf . set _ config _ file(offline = False,world_readable=True)

是時候展示泰坦尼克號數據集的魔力了。

df.iplot()

df.iplot()與df.plot()

右邊的可視化顯示的是靜態圖,而左邊的圖是交互式的,更詳細,所有這些在語法上都沒有明顯的變化。

魔法命令

Magic command是Jupyter筆記本中的壹組便捷函數,旨在解決標準數據分析中的壹些常見問題。使用命令% %lsmagic查看所有可用的命令。

所有可用魔術命令的列表

魔術命令有兩種:line magics命令,以單個%字符為前綴,在單行上輸入操作;Cell magic,前綴雙%%字符,可以多行輸入操作。如果設置為1,不需要輸入%就可以調用神奇的函數。

接下來,看看壹些可能在常見數據分析任務中使用的命令:

% pastebin

% Pastebin將代碼上傳到Pastebin並返回url。Pastebin是壹個在線內容托管服務,它可以存儲純文本,比如源代碼片段,然後通過url與他人分享。事實上,Github gist與pastebin類似,但有版本控制。

在file.py中編寫壹個包含以下內容的python腳本,並嘗試運行它以查看結果。

#file.py

def foo(x):

返回x

使用% pastebin在Jupyter筆記本中生成壹個pastebin url。

%matplotlib筆記本

該函數用於在Jupyter notebook中顯示靜態matplotlib圖。用筆記本替換內聯可以輕松獲得可縮放和可調整大小的繪圖。但是記住這個函數應該在導入matplotlib庫之前調用。

%運行

嘗試在筆記本中使用% run函數%運行python腳本。

%run file.py

%%writefile

%% writefile是將單元格內容寫入文件。以下代碼將腳本寫入名為foo.py的文件,並將其保存在當前目錄中。

% %乳膠

%%LaTeX函數將單元格內容呈現為LaTeX。此函數對於在單元格中編寫數學公式和方程式非常有用。

查找並解決錯誤

交互式調試器也是壹個神奇的功能,我已經將其定義為壹個單獨的類別。如果在運行代碼單元時出現異常,請在新的壹行中鍵入% %debug並運行它。這將打開壹個交互式調試環境,可以直接定位異常發生的位置。您還可以檢查程序中分配的變量值,並在此執行操作。退出調試器並單擊q。

印刷也有竅門。

如果想生成美觀的數據結構,pprint是首選。它在打印字典數據或JSON數據時特別有用。讓我們看壹個使用print和pprint顯示輸出的例子。

讓妳的筆記脫穎而出。

我們可以在您的Jupyter筆記本中使用警告框/評論框來突出顯示重要內容或其他需要突出顯示的內容。註釋的顏色取決於指定的警報類型。只需在需要突出顯示的單元格中添加以下任意或所有代碼。

藍色警告框:信息提示

& ltp class = " alert alert-block alert-info " >

& ltb & gt提示:& lt/b & gt;使用藍色方框(提示信息)來顯示提示和註釋。

如果是筆記,就不必包含“筆記”二字。

& lt/p & gt;

黃色警告框:警告

& ltp class= "警報警報-阻止警報-警告" >

& ltb & gt例子:& lt/b & gt;黃色方框通常用於包含額外的示例或數學公式。

& lt/p & gt;

綠色警告框:成功

& ltp class= "預警-阻止預警-成功" >

僅在必要時使用綠色框,如顯示相關內容的鏈接。

& lt/p & gt;

紅色警告框:高風險

& ltp class = " alert alert-block alert-danger " >

避免紅框是好的,但是可以用來提醒用戶不要刪除壹些重要的代碼部分。

& lt/p & gt;

打印單元格中所有代碼的輸出。

假設Jupyter Notebook有壹個單元格,其中包含以下幾行代碼:

在[1]: 10+5

11+6

Out [1]: 17

壹個單元格的正常屬性是只打印最後壹個輸出,對於其他輸出,我們需要添加print()函數。但是,您可以通過在notebook的頂部添加以下代碼片段來壹次打印所有的輸出。

添加代碼後,所有的輸出結果將被逐壹打印出來。

在[1]: 10+5

11+6

12+7

Out [1]: 15

Out [1]: 17

Out [1]: 19

恢復原始設置:

interactive shell . ast _ node _ interactivity = " last _ expr "

使用“I”選項運行python腳本。

從命令行運行python腳本的典型方式是:pythonhello.py .但是,在運行相同的腳本時添加-i,比如python -i hello.py,可以提供更多的優勢。讓我們看看結果如何。

首先,python即使程序結束也不會退出解釋器。因此,我們可以檢查變量值和程序中定義的函數的正確性。

其次,我們可以很容易地調用python調試器,因為我們仍然在解釋器中:

導入pdb

pdb.pm()

這可以定位異常發生的位置,然後我們可以處理異常代碼。

自動註釋代碼

ctrl/Cmd+/自動註釋單元格中的選定行,再次點擊該組合將取消對同壹行代碼的註釋。

刪除容易恢復難。

妳有沒有不小心刪了Jupyter筆記本裏的單元格?如果答案是肯定的,那麽妳可以掌握這個快捷方式來撤銷刪除操作。

如果您刪除了單元格中的內容,您可以通過按CTRL/cmd+Z輕松恢復它。

如果需要恢復整個刪除的單元格,請按ESC+Z或EDIT & gt撤消單元格刪除。

結論

在這篇文章中,我列出了壹些使用Python和Jupyter notebook時收集的技巧。相信它們會對妳有用,能讓妳有所收獲,從而實現輕松編碼!