pandas 的四種常用函數

obj : 參與合並的對象，如：[df1, df2]

axis : 合並方向

join : 合並方式，outer 為外鏈接，取交集

join_axes : 設置需要顯示的列名

ignore_index : 是否忽略原來DataFrame/Series 對象的索引，重新排列

keys : 為數據源設置多級索引標簽

levels :如果設置keys的話, 指定用作層次化索引各級別（內層索引）上的索引

names :用於創建分層級別的名稱，如果設置keys或levels的話

verify_integrity : 檢查是否出現重復索引，引發異常

left ：參與合並的左側DataFrame

right ：參與合並的右側DataFrame

how ：連接方式：‘inner’（默認，交集）；還有，‘outer’、‘left’、‘right’

on ：用於連接的列名，必須同時存在於左右兩個DataFrame對象中，如果位指定，則以left和right列名的交集作為連接鍵

left_on ：左側DataFarme中用作連接鍵的列

right_on ：右側DataFarme中用作連接鍵的列

left_index ：將左側的行索引用作其連接鍵

right_index ：將右側的行索引用作其連接鍵

sort ：根據連接鍵對合並後的數據進行排序，默認為True。有時在處理大數據集時， 禁用該選項 可獲得更好的性能

suffixes ：字符串值元組，用於追加到重疊列名的末尾，默認為（‘_x’,‘_y’）.例如，左右兩個DataFrame對象都有‘data’，則結果中就會出現‘data_x’，‘data_y’

copy ：設置為False，可以在某些特殊情況下避免將數據復制到結果數據結構中。默認總是賦值

用法入門比較簡單, 前人的博客寫的蠻詳盡了

Pandas詳解十五之利用GroupBy技術進行分組

補充幾點：

data : 用於制作數據透視表的 DataFrame的某列數據，輸入列名即可

index ：行分組標簽

columns : 列分組標簽

aggfunc : 匯總計算方法,默認為(mean) 可以用字典為不同的列指定不同的累計函數，此時data可以缺失

fill_value ：填充缺失值

dropna : 剔除缺失值

margins : 是否對邊際進行aggfunc匯總

margins_name : 邊際行/列的名稱