當前位置:成語大全網 - 漢語詞典 - 大數據時代,為什麽要清理數據?

大數據時代,為什麽要清理數據?

數據是什麽意思?

計算機科學中經常談論的是資源的管理。最典型的資源是時間、空間和能量。數據以前不被認為是資源,而是使用資源的東西。如今,數據已被廣泛視為壹種資源,我們可以使用並從中獲得價值和知識。對數據資源進行分析和挖掘,從而做出及時、節約成本、高質量的決策和結論。

為什麽要組織數據?

企業意識到數據的價值,但是數據本身的壹些特性讓每個企業都很頭疼。這裏我要提到的壹個特點就是多樣性——數據來源多種多樣,數據的形式更是千奇百怪。

在處理各種數據的時候,通常會發現數據本身真的不那麽友好。例如,如果壹個企業想直接從業務數據庫中提取數據進行分析,就會面臨業務數據庫通常是根據業務運營的需要來設計的,遵循3NF範式來盡量減少數據冗余,但同時也帶來了表與表之間關系復雜的負擔。

在分析業務情況時,存儲業務數據的表和妳要分析的角度表很可能沒有直接關聯,需要通過多層關聯來實現,這就給分析增加了很大的復雜性。同時,由於業務數據庫會接受大量用戶的輸入,如果業務系統沒有做足夠的數據驗證,就會產生壹些錯誤的數據,比如不合法的身份證號、空值、不應該存在的空字符串等。

此外,隨著NoSQL數據庫的進壹步發展,大量的數據存儲在MongoDB等NoSQL數據庫中,各種數據存儲方式也帶來了數據檢索的困難,不可能簡單地用壹條SQL來完成數據查詢。更不用說機器的源日誌和爬蟲抓取的數據了。

因此,整理數據的目的就是要從上述海量、復雜、混亂、不可理解的數據中提取和推導出有價值、有意義的數據和數據結構。清理後,保存真正有價值、有條理的數據,為後期數據分析減少分析障礙。

什麽是數據清洗?

如何整理分析數據,其中壹個很重要的工作就是數據清洗。數據清理是指以相應的方式處理“臟”數據。這裏的臟是指數據質量不夠好,會掩蓋數據的價值,給後續的數據分析帶來不同程度的影響。有調查顯示,壹個相關項目80%的時間可能都花在了這項工作上。因為清洗必然意味著對數據有壹定的了解,而這項工作是自動化或計算機無法解決的難題,我們只能依靠人腦對數據進行重新審視和驗證,找出問題,通過壹些方法對相應的數據源進行重組。

通過長期思考和解決企業面臨的諸多復雜應用場景,MicroStrategy深度開發各種輔助功能,幫助用戶深度體驗連接數據和排序數據,使其模型能夠支持壹站式連接各類數據資源,包括各類文本文件、70多個RDBMS、多維表達式(MDX)立方體源、Hadoop系統和雲數據源。MicroStrategy依靠開箱即用的數據連接和原生驅動,還提供不同數據源的數據融合,掃清用戶和數據源之間的障礙。