obj : 參與合並的對象,如:[df1, df2]
axis : 合並方向
join : 合並方式,outer 為外鏈接,取交集
join_axes : 設置需要顯示的列名
ignore_index : 是否忽略原來DataFrame/Series 對象的索引,重新排列
keys : 為數據源設置多級索引標簽
levels :如果設置keys的話, 指定用作層次化索引各級別(內層索引)上的索引
names :用於創建分層級別的名稱,如果設置keys或levels的話
verify_integrity : 檢查是否出現重復索引,引發異常
left :參與合並的左側DataFrame
right :參與合並的右側DataFrame
how :連接方式:‘inner’(默認,交集);還有,‘outer’、‘left’、‘right’
on :用於連接的列名,必須同時存在於左右兩個DataFrame對象中,如果位指定,則以left和right列名的交集作為連接鍵
left_on :左側DataFarme中用作連接鍵的列
right_on :右側DataFarme中用作連接鍵的列
left_index :將左側的行索引用作其連接鍵
right_index : 將右側的行索引用作其連接鍵
sort :根據連接鍵對合並後的數據進行排序,默認為True。有時在處理大數據集時, 禁用該選項 可獲得更好的性能
suffixes :字符串值元組,用於追加到重疊列名的末尾,默認為(‘_x’,‘_y’).例如,左右兩個DataFrame對象都有‘data’,則結果中就會出現‘data_x’,‘data_y’
copy :設置為False,可以在某些特殊情況下避免將數據復制到結果數據結構中。默認總是賦值
用法入門比較簡單, 前人的博客寫的蠻詳盡了
Pandas詳解十五之利用GroupBy技術進行分組
補充幾點:
data : 用於制作數據透視表的 DataFrame的某列數據,輸入列名即可
index : 行分組標簽
columns : 列分組標簽
aggfunc : 匯總計算方法,默認為(mean) 可以用字典為不同的列指定不同的累計函數,此時data可以缺失
fill_value :填充缺失值
dropna : 剔除缺失值
margins : 是否對邊際進行aggfunc匯總
margins_name : 邊際行/列的名稱