數據學習
業務學習有壹個毛病,比如妳看案例,往往接觸到的數據或使用的數據是局部的,因此,妳的視野會受局限,在大多數公司裏,很多數據分析師其實缺乏全局的數據視野,因為他不知道到底有多少數據,因此,永遠只能在已知的數據裏轉圈圈,當然,可能也夠了,但我這裏要說得是做得最好。
數據分析師應該主動的向IT部門拿到最全的數據字典,對於數據字典進行持續的學習,了解每張表甚至字段的業務含義,理解的越透徹,妳的分析潛力就越大。更有甚者,筆者還建議妳去理解源系統,從業務實現流程角度出發去理解對應數據的含義,因為有時候,簡單的業務描述在數據上的表達卻是非常復雜的,業務語言與數據語言很多時候是1對多關系,打個比方,妳看到業務系統上某個菜單的功能,對應到系統中的數據是怎樣的,妳能還原出來嗎?
當然,大多數數據分析師可能不需要進行系統數據學習,反正實踐中慢慢熟悉好了,但自頂向下的數據學習方式可以讓妳有壹個更好的基礎和更全局的數據視野。
技術學習
有幾個層面的東西要學,依賴於實際的場景和妳希望達到的階段:
首先,妳要學會從數據庫或者其它源頭獲取數據,很多數據分析師仍然依賴於IT人員獲取數據,但大數據時代,真的有必要自己動手了,因為依賴他人效率太低了,起碼妳要會SQL,SQL甚至基本上是為統計取數而生的方便工具,圖形化的透視方式也遠遠沒有SQL的表達能力強,這是基本功,其實, SQL就能解決大多數統計取數問題。
其次,妳要會壹些數據分析工具,EXCEL是最基本的,其實大多數數據分析基於EXCEL應付已經綽綽有余了,EXCEL的圖形表達能力也已經夠強。
最後,如果妳希望更深壹層,那就學習R語言、PYTHON、SPSS,SAS等,他們提供了更強大的挖掘能力,可以幫妳把統計學的數據挖掘精髓發揮的淋漓盡致。
當然,如果有可能,妳也要熟悉壹下妳所在企業的數據倉庫或大數據平臺,懂得壹些基本的操作,對於妳提升分析的自由度和靈活性也大有好處,比如自己搞個腳本定時跑數據,打造個人的數據集市,現在數據分析的概念也越來越大,很多公司把對於大數據平臺的數據處理能力也納入到數據分析師的技能範疇。
以上層層遞推,其實數據分析師每在IT上前進壹步,帶來的效益是幾何級的,比如妳懂Hadoop,那麽,妳就可能離大數據更近壹點。
統計理論
終於講到大家都很關心的統計學知識了,推薦壹些書吧:
《深入淺出數據分析》:講了數據分析到底是幹什麽的?數據分析都包含什麽內容?對新人們還是有壹定的作用,難度容易。
《深入淺出統計學》:要了解常用數理統計模型(描述統計指標、聚類、決策樹、貝葉斯分類、回歸等),重點放在學習模型的工作原理、輸入內容和輸出內容,至於具體的數學推導,學不會可暫放壹邊,難度容易。
《極簡統計學》:對統計推斷部分的闡述十分清晰,適合非統計背景的人工閱讀
《統計學:從數據到結論》:簡明精要,統計概念和R可以壹起學習
《數據挖掘導論》:最近幾年數據挖掘教材中比較好的壹本書,被美國諸多大學的數據挖掘課作為教材,筆者也最近買的,很好,很多概念解釋的比較清楚,難度中上。
這些都是很實用的書籍,但結合了實踐學更好,對於特定的業務場景,就找對應的書看吧,網上推薦的也很多了,大家自己搜索。
表達能力
作為數據分析人員,PPT制作能力是極其重要的壹項能力,妳總要通過某種形式表達出妳的觀點,很核心的壹點是需要有嚴密的邏輯,甚至滴水不漏,可以通過思維導圖來訓練自己,但實際的格式表達卻有點八股,壹般都是現狀分析,原因剖析、分析結論和後續措施啥的,萬變不離其宗,當然妳需要花壹點時間來了解如何做重點突出,如何圖文並茂,PPT的寫作決非壹日之功。