當前位置:成語大全網 - 新華字典 - Python第19課:數據清洗之去錯、去空、去重

Python第19課:數據清洗之去錯、去空、去重

Python 第19課:數據清洗之去錯、去空、去重

時間 2019-02-01?下午3:30

主講 劉培富

地點 四樓電教室

數據清洗是數據治理的關鍵環節,是指對獲取的原始數據(也稱“臟數據”)進行審查、校驗、加工的過程,目的在於刪除重復信息、糾正錯誤信息,保持數據壹致性。

壹般來說,數據清洗,主要是對數據進行去錯、去空、去重處理。

針對壹張包含姓名、身份證號碼、車牌號碼的數據表,建立糾錯規則如下:

1.車牌號既不包含漢字贛,且不包含漢字饒。

2.身份證號碼的年份既不等於19也不等於20,身份證號碼的月份大於12,身份證號碼的日期大於31。

3.身份證號碼位數不等於18。

4.姓名的長度小於等於1。

二、去空

對於關鍵性數據,不允許為空,對於這類數據,要查詢是否存在空值。

三、去重

在壹張表中,有的數據列允許重復,有的數據列則不允許重復。例如,對於壹張車主信息表來說,姓名、身份證號可以重復,因為存在壹人登記多輛車的情形,這種重復,不能認為是錯誤。但是,車牌號則不允許重復,否則就存在業務邏輯的錯誤。所以,針對車牌號數據列,要進行去重。

通過以下SQL語句,可以列出重復的數據:

綜上,數據清洗,既要懂技術,更要懂業務,否則無法正確制定清洗規則,導致數據清洗流於形式,達不到清洗的效果。