當前位置:成語大全網 - 新華字典 - 數據建模的如何進行

數據建模的如何進行

概念建模

數據建模大致分為三個階段,概念建模階段,邏輯建模階段和物理建模階段。其中概念建模和邏輯建模階段與數據庫廠商毫無關系,換言之,與MySQL,SQL Server,Oracle沒有關系。物理建模階段和數據庫廠商存在很大的聯系,因為不同廠商對同壹功能的支持方式不同,如高可用性,讀寫分離,甚至是索引,分區等。

概念建模階段

實際工作中,在概念建模階段,主要做三件事:

1. 客戶交流

2. 理解需求

3. 形成實體

這也是壹個叠代,如果先有需求,盡量去理解需求,明白當前項目或者軟件需要完成什麽,不明白或者不確定的地方和客戶及時交流,和客戶double confirm過的需求,落實到實體(Package);但是好多時候我們需要通過先和客戶交流,進而將交流結果落實到需求,之後進壹步具體到實體;本文可能會涉及到壹些來自於EA(Enterprise Architect 7.1)建模術語,(EA中將每個實體視為壹個Package)。這裏並不對各種建模工具進行比較,如Visio,EA,PowerDesigner, ERWin等;其實作為員工的我們選擇性很少,公司有哪個產品的Licence,我們就用哪個吧。

舉例說明:在壹個B2C電子商務網站中,這樣的需求再普通不過了:客戶可以在該網站上自由進行購物!我們就以這個簡單例子,對其進行細分,來講解整個數據建模的過程,通過上面這句話,我們可以得出三個實體:客戶,網站,商品;就像Scrum(敏捷開發框架的壹種)中倡導的壹樣每個Sprint,都要產出確確實實的東西,OK,概念建模階段,我們就要產出實體。客戶和商品(我們將網站這個實體扔掉,不需要它。)

在創建這兩個實體(Package)的時候,我們記得要講對需求的理解,以及業務規則,作為Notes添加到Package中,這些信息將來會成為數據字典中非常重要的壹部分,也就是所謂的元數據。BTW,EA或者其他建模工具應該都可以自動生成數據字典,只不過最終生成的格式可能不太壹樣。如在Customer這個Package的Notes上,我們可以這樣寫,用戶都要通過填寫個人基本信息以及壹個郵箱來註冊賬戶,之後使用這個郵箱作為登錄帳號登錄系統進行交易。

在概念建模階段,我們只需要關註實體即可,不用關註任何實現細節。很多人都希望在這個階段把具體表結構,索引,約束,甚至是存儲過程都想好,沒必要!!因為這些東西使我們在物理建模階段需要考慮的東西,這個時候考慮還為時尚早。可能有的人在這個階段擔心會不會丟掉或者漏掉壹些實體?也不用擔心,2013年好多公司都在采用Scrum的開發模式,只要妳當前抽象出來的實體滿足當前的User Story,或者當前的User Story裏面的實體,妳都抽象出來了,就可以了!如果妳再說,我們User Story太大,實體太多,不容易抽象,那就真沒辦法了,建議妳們的團隊重新開Sprint 計劃會議。

邏輯建模

邏輯建模階段

對實體進行細化,細化成具體的表,同時豐富表結構。這個階段的產物是,可以在數據庫中生成的具體表及其他數據庫對象(包括,主鍵,外鍵,屬性列,索引,約束甚至是視圖以及存儲過程)。我在實際項目中,除了主外鍵之外,其他的數據庫對象我都實在物理建模階段建立,因為其他數據庫對象更貼近於開發,需要結合開發壹起進行。如約束,我們可以在web page上做JavaScript約束,也可以在業務邏輯層做,也可以在數據庫中做,在哪裏做,要結合實際需求,性能以及安全性而定。

針對Customer這個實體以及我們對需求的理解,我們可以得出以下幾個表的結構,用戶基本信息表(User),登錄賬戶表(Account),評論表(Commnets,用戶可能會對產品進行評價),當然這個案例中我們還會有更多的表,如用戶需要自己上傳頭像(圖片),我們要有Picture表。

針對產品實體,我們需要構建產品基本信息表(Product),通常情況下,我們產品會有自己的產品大類(ProductCategory)甚至產品小類(ProductSubCategory),某些產品會因為節假日等原因進行打折,因為為了得到更好的Performance我們會創建相應ProductDiscount表,壹個產品會有多張圖片,因此產品圖片表(ProductPicture)以及產品圖片關系表(ProductPictureRelationship),(當然我們也可以只設計壹張Picture表,用來存放所有圖片,用戶,產品以及其他)有人說產品和圖片是壹對多的關系,不需要創建壹個關系表啊?是的,我認為只要不是壹對壹的關系,我都希望創建壹個關系表來關聯兩個實體。這樣帶來的好處,壹是可讀性更好,實現了實體和表壹壹對應的關系,二是易於維護,我們只需要維護壹個關系表即可,只有兩列(ProductID和PictureID),而不是去維護壹個Picture表。

客戶進行交易,即要和商品發生關系,我們需要Transaction表,壹個客戶會買壹個或者多個商品,因為壹筆Transaction會涉及壹個或多個Products,因此壹個Transaction和ProductDiscount之間的關系(ProductDiscount和Product是壹壹對應的關系)需要創建,我們稱其為Item表,裏面保存TransactionID以及這筆涉及到的ProductDiscountID(s),這裏插壹句,好多系統都需要有審計功能,如某個產品歷年來的打折情況以及與之對應的銷售情況,我們這裏暫不考慮審計方面的東西。

就這樣,我們根據需求我們確定下來具體需要哪些表,進壹步豐富每壹個表屬性(Column),當然這裏面會涉及主鍵的選取,或者是使用代理鍵(Surrogate Key),外鍵的關聯,約束的設置等細節,這裏筆者認為只要能把每個實體屬性(Column)落實下來就是很不錯了,因為隨著項目的開展,很多表的Column都會有相應的改動。至於其他細節,不同數據庫廠商,具體實現細節不盡相同。關於主鍵的選取多說壹句,有的人喜歡所有的表都用自增長ID作為主鍵,而有的人希望找到唯壹能標識當前記錄的壹個屬性或者多個屬性作為主鍵;自增長ID作為代理主鍵,對於將來以多個類似當前Transaction System作為數據源,構建數據倉庫的時候,這些自增長ID主鍵會是壹個麻煩(多個系統中,相同表存在大量主鍵重復);使用壹個屬性或多個屬性作為作為主鍵,不管主鍵是可編輯的,讀寫效率是我們必須考慮得。所以並沒有壹個放之四海而皆準的原則,筆者只是給大家推薦壹些考慮的因素。

物理建模

物理建模階段

EA可以將在邏輯建模階段創建的各種數據庫對象生成為相應的SQL代碼,運行來創建相應具體數據庫對象(大多數建模工具都可以自動生成DDL SQL代碼)。但是這個階段我們不僅僅創建數據庫對象,針對業務需求,我們也可能做如數據拆分(水平或垂直拆分),如B2B網站,我們可以將商家和壹般用戶放在同壹張表中,但是針對PERFORMANCE考慮,我們可以將其分為兩張表;隨業務量的上升,Transaction表越來越大,整個系統越來越慢,這個時候我們可以考慮數據拆分,甚至是讀寫分離(即實現MASTER-SLAVE模式,MYSQL/SQLSERVER可以使用Replication,當然不同存儲引擎采用不同的方案),這個階段也會涉及到集群的事情,如果妳是架構師或者數據建模師,這個時候妳可以跟DBA說,Alright,I am done with it,now is your show time.

相信大家都知道範式,更有好多人把3NF奉為經典,3NF確實很好,但是3NF是幾十年前提出來的,那個時候的數據量以及訪問頻率和2012年完全不是壹個數量級的;因此我們絕對不能壹味地遵守3NF;在整個數據建模過程中,在保證數據結構清晰的前提下,盡量提高性能才是我們關註的要點,因此筆者大力倡導數據適當冗余!

上面筆者是結合壹些實際例子表達自己對數據建模的觀點,希望對讀著有用。在數據建模過程中,不要希望壹步到位將數據庫設計完整,筆者不管是針對data warehouse還是Transactional Database設計,從來沒有過壹次成功的經歷。隨著項目的進行,客戶和開發團隊對業務知識與日增長,因此原來的設計也在不斷完善中。畢竟,數據建模或者設計數據庫不是我們的最終目的,我們需要的是壹個健壯,性能優越,易擴展,易使用的軟件!