當前位置:成語大全網 - 新華字典 - pandas 的四種常用函數

pandas 的四種常用函數

obj : 參與合並的對象,如:[df1, df2]

axis : 合並方向

join : 合並方式,outer 為外鏈接,取交集

join_axes : 設置需要顯示的列名

ignore_index : 是否忽略原來DataFrame/Series 對象的索引,重新排列

keys : 為數據源設置多級索引標簽

levels :如果設置keys的話, 指定用作層次化索引各級別(內層索引)上的索引

names :用於創建分層級別的名稱,如果設置keys或levels的話

verify_integrity : 檢查是否出現重復索引,引發異常

left :參與合並的左側DataFrame

right :參與合並的右側DataFrame

how :連接方式:‘inner’(默認,交集);還有,‘outer’、‘left’、‘right’

on :用於連接的列名,必須同時存在於左右兩個DataFrame對象中,如果位指定,則以left和right列名的交集作為連接鍵

left_on :左側DataFarme中用作連接鍵的列

right_on :右側DataFarme中用作連接鍵的列

left_index :將左側的行索引用作其連接鍵

right_index : 將右側的行索引用作其連接鍵

sort :根據連接鍵對合並後的數據進行排序,默認為True。有時在處理大數據集時, 禁用該選項 可獲得更好的性能

suffixes :字符串值元組,用於追加到重疊列名的末尾,默認為(‘_x’,‘_y’).例如,左右兩個DataFrame對象都有‘data’,則結果中就會出現‘data_x’,‘data_y’

copy :設置為False,可以在某些特殊情況下避免將數據復制到結果數據結構中。默認總是賦值

用法入門比較簡單, 前人的博客寫的蠻詳盡了

Pandas詳解十五之利用GroupBy技術進行分組

補充幾點:

data : 用於制作數據透視表的 DataFrame的某列數據,輸入列名即可

index : 行分組標簽

columns : 列分組標簽

aggfunc : 匯總計算方法,默認為(mean) 可以用字典為不同的列指定不同的累計函數,此時data可以缺失

fill_value :填充缺失值

dropna : 剔除缺失值

margins : 是否對邊際進行aggfunc匯總

margins_name : 邊際行/列的名稱