說說數倉(1) - 什麽是數倉
說說數倉(2) - 傳統數倉與互聯網數倉
說說數倉(3) - 數倉架構
說說數倉(4) - 指標字典
說說數倉(5)-最重要的維度之日期維度
說說數倉(6)-關於命名規範
說說數倉(7)-淺談數據治理
說說數倉(8)-關於增量
說說數倉(9)-上下遊約定
說說數倉(10)-任務註釋
近幾年工作都和BI有關,但是真正對數倉有系統的了解還是在第壹家公司的時候,當時跟著IBM的顧問,了解了很多的模型設計的故事,對於入門和啟蒙有很大的幫助。後面對於數倉的理解,其實都是工作中壹點壹點實踐和摸索得來的。
前面我們說了傳統數倉和互聯網數倉的區別,主要提到了服務用戶群的不同,這裏說的傳統和互聯網其實都是相對而言的,這壹回呢,我們說說數倉的架構。
現在說數倉,更多的會和數據平臺或者基礎架構搭上,已經融合到整個基礎設施的搭建上。這裏呢,我們不說Hadoop各種組件之間的配合,我們就簡單說下數倉的分層架構。
說到數倉建模,就得提下經典的2套理論:
數倉的建模或者分層,其實都是為了更好的去組織、管理、維護數據,實際開發時會整合2種方式去使用,當然,還有些其他的,像Data Vault模型、Anchor模型,暫時還沒有應用過,就不說了。
維度建模,壹般都會提到星型模型、雪花模型,星型模型做OLAP分析很方便。
簡單點兒,直接ODS+DM就可以了,將所有數據同步過來,然後直接開發些應用層的報表,這是最簡單的了;當DM層的內容多了以後,想要重用,就會再拆分壹個公***層出來,變成3層架構,最近看了本阿裏的書,《大數據之路》,裏面有很多數倉相關的內容,很不錯,參考後,目前使用的分層模式如下:
按照這種分層方式,我們的開發重心就在dwd層,就是明細數據層,這裏主要是壹些寬表,存儲的還是明細數據;到了dws層,我們就會針對不同的維度,對數據進行聚合了,按道理說,dws層算是集市層,這裏壹般按照主題進行劃分,屬於維度建模的範疇;ads就是偏應用層,各種報表的輸出了。
基於這種分層方式,感覺用起來還是很方便的,嗯,先到這裏。