大數據,或稱巨量數據,是指涉及的數據量巨大到主流軟件工具無法在合理的時間內捕捉、管理、處理和排列的信息,以幫助企業做出更積極的商業決策。
從技術上講,大數據和雲計算的關系就像硬幣的正反面壹樣密不可分。大數據不能由單臺計算機處理,必須采用分布式架構。其特點是對海量數據進行分布式數據挖掘。但它必須依賴雲計算的分布式處理、分布式數據庫、雲存儲和虛擬化技術。
大數據的5V特征(IBM提出):體量(海量)、速度(高速)、多樣性(多樣性)、價值(低價值密度)、真實性。“大數據”壹詞,在商務印書館出版的《中國新詞語詞典(2000-2020)》中,列出了中國近20年來生命力指數最高的十大“時代新詞”。
大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些有意義的數據進行專業化處理。換句話說,如果把大數據比作壹個行業,那麽這個行業盈利的關鍵就在於提高數據的“處理能力”,通過“處理”實現數據的“增值”。
結構:
大數據包括結構化、半結構化和非結構化數據,非結構化數據日益成為數據的主體部分。根據IDC的調查報告,企業中80%的數據是非結構化數據,這些數據每年以60%的指數級增長。
大數據只是互聯網發展到現階段的壹種表征或特征。沒有必要將其神話或保持敬畏。在以雲計算為代表的技術創新的背景下,這些原本看似難以收集和使用的數據開始被輕松使用。通過各行各業的不斷創新,大數據將逐漸為人類創造更多的價值。