當前位置:成語大全網 - 新華字典 - 4.壞數據處理(丟棄、填補)

4.壞數據處理(丟棄、填補)

丟棄數據即根據 過濾條件 丟棄掉部分 無用數據

默認情況下 axis=0 (對行操作)。

三種方法:

drop() :根據標簽丟棄多行或者多列數據。

duplicated() 方法返回壹個布爾型的Series,表示各行是否是重復行,僅僅將重復的最後壹行標記為True。

I.返回布爾型Series:

II.通過布爾過濾,丟棄掉數據:

III. drop_duplicates() 方法更簡單的完成去重(本例只希望根據"one"列判斷重復項):

dropna() 方法可以丟棄缺失值相關數據。

丟棄所有列均為缺失值的行,並且替換原來的對象:

isnull() :對Pandas對象中的所有數值進行逐壹判斷,返回壹個同樣大小的對象。如果是NaN,則返回True。

True和False在進行算術運算時,可以將其分別視為1和0。所以為了統計每壹行或者每壹列的缺失值數量,我們可以直接沿或者沿列進行求和:

使用 fillna() 方法的四種填補方式:

例:使用0填補

通過設置 method 參數實現:

例:

通過傳入字典實現。

例:對"one"列使"0"填補,對"three"列使用"1"填補。

利用Pandas的自動對齊功能,我們可以直接向fillna()傳入Pandas對象。