關於大數據的九點思考:沒有妳想的那麽神奇
大數據思考之壹
任何壹個網站的數據都是人們互聯網行為數據的很小的壹個子集,無論這個子集多麽全面,分析多麽深入,都是子集,不是全集。對於企業來講,競爭對手的數據價值遠遠超過自己網站數據的價值,從量級上,對於所有公司都壹樣,自己擁有的數據遠遠小於全集數據。看起來的全數據恰恰是殘缺數據。
大數據思考之二
數據量的大幅增加會造成結果的不準確,來源不同的信息混雜會加大數據的混亂程度。研究發現:巨量數據集和細顆粒度的測量會導致出現“錯誤發現”的風險增加。那種認為“假設、檢驗、驗證的科學方法已經過時”的論調,正是大數據時代的混亂與迷茫,人們索性擁抱凱文凱利所稱的混亂。
大數據思考之三
互聯網用戶的基本特征、消費行為、上網行為、渠道偏好、行為喜好、生活軌跡與位置等,反映用戶的基本行為規律。體系完整是所有分析性工作的第壹步,完整的框架甚至勝過高深的模型。人類的認識最大的危險是不顧後果的運用局部知識。如果只關心自己網站數據,其分析基礎必然是斷裂數據。
大數據思考之四
現在談到大數據,基本有四個混亂觀念:第壹,大數據是全數據,忽視甚至蔑視抽樣;第二,連續數據就是大數據;第三,數據量級大是大數據;第四,數據量大好於量小。對應的是:抽樣數據只要抽樣合理,結論準確;連續只是壹個數據結構;大量級的噪音會得出錯誤結論;大小與價值關系不大。
大數據思考之五
大數據不是新事物,天氣、地震、量子物理、基因、醫學等都是,借鑒他們的方法有益。他們用抽樣調查。互聯網數據挖掘方法論也如此,不同的是更難,因為人的復雜性。既然是關於人的研究就需應用所有研究人的方法梳理大數據。只要懂編程、懂調動數據的人就可以做大數據挖掘的說法是謬誤。
大數據思考之六
大數據分析中分析構架為第壹要著,算法也極為關鍵,在最近的大數據處理中發現:解析網址後的分類是是壹個難點,主要有幾個方面,壹個千萬人的網絡行為數據壹天產生的域名大約50000個,雖然有壹些算法,但是混淆、難以辨認、連續更新與判別是分析中的重要步驟,簡單分易,精細分難。
大數據思考之七
算法中,只要包含文本,就必然有兩個關鍵基礎技術:關鍵詞(字典)與語義分析,關鍵詞技術成熟,語義技術是瓶頸,中文語義太難,能解決50%的團隊就不錯了,尤其是社交語言,比如"真可以!"何解?需上下文。希望風投們多鼓勵此類基礎技術研發,突破此瓶頸是大數據挖掘的關鍵點之壹。
大數據思考之八
社交數據挖掘中,很多團隊集中在運用推特瀑布思路,就是可視化技術,其構圖精美值得稱道,問題是,其理論還是沿用三十多年前的社會計量法,概念還是局限在點、橋、意見領袖等小群體分析,不適合巨網,突破可視化框架的社交分析需要理論探索和實踐努力。
大數據思考之九
移動互聯網對社會生活的影響本質是時間與空間的解構,分析這類大數據需要把握這兩點,如果僅僅分析app和網絡使用行為,那麽分析上就失去了移動的意義。單純看流量、點擊率等簡單數字無法解決復雜的營銷問題。不創新的延續原有思維模式是人類思考惰性。
以上是小編為大家分享的關於關於大數據的九點思考 沒有妳想的那麽神奇的相關內容,更多信息可以關註環球青藤分享更多幹貨