2011麥肯錫全球研究所給出的定義是:壹種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力範圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。
壹、大數據簡介
在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣捷徑,而采用所有數據進行分析處理。大數據的5V特點(IBM提出):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。
“大數據”壹詞列出了商務印書館推出的《漢語新詞語詞典(2000—2020)》中國這20年生命活力指數最高的十大“時代新詞”。
二、特征
容量(Volume):數據的大小決定所考慮的數據的價值和潛在的信息;
種類(Variety):數據類型的多樣性;
速度(Velocity):指獲得數據的速度;
可變性(Variability):妨礙了處理和有效地管理數據的過程。
真實性(Veracity):數據的質量。
復雜性(Complexity):數據量巨大,來源多渠道。
價值(value):合理運用大數據,以低成本創造高價值。
結構與數據要素概念
壹、結構
大數據包括結構化、半結構化和非結構化數據,非結構化數據越來越成為數據的主要部分。據IDC的調查報告顯示:企業中80%的數據都是非結構化數據,這些數據每年都按指數增長60%。
大數據就是互聯網發展到現今階段的壹種表象或特征而已,沒有必要神化它或對它保持敬畏之心,在以雲計算為代表的技術創新大幕的襯托下,這些原本看起來很難收集和使用的數據開始容易被利用起來了,通過各行各業的不斷創新,大數據會逐步為人類創造更多的價值。
二、數據要素概念
數據技術的發展伴隨著數據應用需求的演變,影響著數據投入生產的方式和規模,數據在相應技術和產業背景的演變中逐漸成為促進生產的關鍵要素。因此,“數據要素”壹詞是面向數字經濟,在討論生產力和生產關系的語境中對“數據”的指代,是對數據促進生產價值的強調。
即數據要素指的是根據特定生產需求匯聚、整理、加工而成的計算機數據及其衍生形態,投入於生產的原始數據集、標準化數據集、各類數據產品及以數據為基礎產生的系統、信息和知識均可納入數據要素討論的範疇。