前言 :
在建立OneData之前,阿裏數據有30000多個指標,其中,即使是同樣的命名,但定義口徑卻不壹致。即使是中等規模的公司,也是如此,隨著數據量的增大,數據指標也會越來越多,缺乏指標體系的管理會存在各種各樣的問題。
壹、指標不規範帶來的問題
在數據指標概念=0時,業務方按“我覺得”來辦事,難以衡量效果。
產品設計、運營同學通常是:我覺得用戶會喜歡我們新推出的這個功能,我覺得新推的活動,活動效果會很好…..那領導就要問了,這個“覺得”有什麽依據麽?怎樣衡量用戶喜歡這個新增的功能?怎樣判斷活動效果好,多少人參與或是多少轉化?
這樣壹提問,其實設計者們也雲裏霧裏的,壹臉懵逼,別問設計原因,問就是回答其它競品也有這個功能,所以我們也做…...是不是覺得自己也中招了?
不過已經有大批產品人員已經意識到傳統的盲目設計、抄襲式設計時代已經過去,數字化產品時代已到來的現狀,開始嘗試用數據指標來輔助業務決策。於是開始進入下壹階段…
此時數據指標概念=0.5,有單點數據指標,但難以看出整體業務問題。
這種情況下通常是想到什麽業務指標,就用什麽業務指標。比方說看到神策、友盟數據分析類廠商通常會用GMV、日活用戶、月活用戶、PV、UV、頁面停留時長等數據,於是產品設計人員先將其照搬進來,再結合具體使用的時候,會想到壹些指標,然後逐個往上加。
以網約車為例,今天的GMV降低50%,是什麽原因導致呢?分析人員回復說:受疫情影響,乘客下單量降低20%。
這是平臺當前已有指標,那還有30%呢?是什麽問題導致的?於是分析人員壹查數,發現在線司機數、接單司機數降低30%,於是匆匆的又把臨時想到的這兩個指標,簡單的描述了壹下業務含義,經過壹系列的溝通協調,讓研發臨時添加。
這種方式會存在什麽問題呢?1)指標修改成本大。研發團隊需要重新進行數據采集、清洗、存儲工作。2)取值定義不清晰,數據不準確。3)指標缺乏定義規範,各部門理解難度大。會產生壹些重復指標,如指標名稱相同,含義不同,例如都叫註冊司機,壹種定義的是註冊手機號成功即為註冊司機;壹種定義的是加盟成功了的是註冊司機。4)存儲、計算、研發成本高:沒有統壹的規範管理,造成了重復計算的資源浪費;數據的層次和粒度不清晰,使得重復存儲嚴重。
二、理解OneData指標規範
既然不提前設計指標體系會出現諸多問題,那指標體設計流程是什麽?如何保證指標體系的規範設計呢?下面我們先來看看阿裏是如何制定指標規範的。
以維度建模作為理論基礎,構建總線矩陣,定義業務域、數據域、業務過程、度量/原子指標、維度、維度屬性、修飾詞、修飾類型、時間周期、派生指標等。
業務域
:比數據域更高維度的業務劃分方法,適用於特別龐大的業務系統,且業務板塊之間的指標或業務重疊性較小。例如用車業務板塊包含乘客端、司機端,電商業務板塊包含商城、返利模塊。
業務過程
:業務過程可以概括為壹個個不可拆分的行為事件,如下單、支付、評價等業務過程/事件。這裏的事件跟埋點的事件類似,詳情可查看
《埋點事件設計》
看到這壹系列的名詞,很多人可能就開始懵逼了,業務域倒還能理解,簡單來說就是對不同業務的分類;業務過程也容易理解,相當於畫業務流程圖唄。
那數據域又是何方神聖?
數據域
:是聯系較為緊密的數據主題的集合,是對業務對象高度概括的概念層歸類,目的是便於數據管理與應用。簡而言之,數據域就類似於我們電腦桌面要建立不同的文件夾來存儲數據,這些個文件夾名就是數據域。
維度、維度屬性、修飾這些怎麽理解?有什麽用途?
維度
:是度量的環境,用來反映業務的壹類屬性,這類屬性的集合構成壹個維度,可以從who-where-when-what層面來看。
維度屬性
:維度屬性隸屬於維度,相當於維度的具體說明,如用戶維度中性別為男、女。
修飾詞
:指除了統計維度以外指標的業務場景。
修飾類型
:對修飾詞的抽象劃分。
簡而言之,維度和修飾都可以理解為原子指標的壹些限定條件,懂sql的會更好理解壹些,壹般是寫sql時,放在where語句後邊的。
度量/原子指標
:原子指標和度量含義相同,某壹業務行為事件下的度量,是業務定義中不可拆分的指標,如註冊數。
時間周期
:用來明確數據統計的時間範圍或是時間點,如最近30天、自然周、截至當日等。
指標類型
:包含原子指標、派生指標。原子指標 = 行為事件+度量派生指標 = 壹個原子指標+多個修飾詞+時間周期
例如:原子指標=完單量,派生指標=近壹周iOS乘客完單量,包含時間周期=近壹周,修飾詞=iOS,維度=乘客,原子指標=完單量。
三、制定自己的指標體系規範
接下來參考阿裏的onedata數據標準,搭建網約車體系中的數據指標。
業務背景:用車業務是網約車整體業務中的壹個核心,處於多次循環叠代中,存在指標定義不規範,業務方頻繁提出新增指標,技術修改難度大等問題,所以目前需要從業務整體角度重新構建指標體系。
業務目標:標準化指標體系,提升指標提取工作效率。
行動:在構建指標體系的過程中,首要動作要明確指標分類和約束指標命名方式,使各個指標能夠做到見名知意、減少溝通成本,這裏我們參照阿裏對指標的劃分,來規範建設指標體系。
第壹步:調研業務需求與分析業務流程
1.調研業務需求
充分的業務調研是指標體系構建的基礎,在數據指標體系搭建項目啟動前,需要與各業務方詳細了解具體業務、梳理清楚關鍵業務流程。
需求采集可分為定量、定性采集兩種類型,定量地發放調研問卷形式,廣泛采集業務需求;定性地進行用戶訪談,深度挖掘業務應用場景和核心需求。詳細的需求采集與分析方式之前
《需求采集與需求分析》
這篇文章有寫過,此處不再展開,可做參考。
2.分析業務流程
根據阿裏巴巴onedata的最佳實踐,業務過程可以概括為壹個個不可拆解的行為事件。為梳理數據之間的邏輯關系和流向,首先要理解用戶的業務過程,了解業務過程中涉及的數據系統。
下面以網約車體系為例,梳理司機端、乘客端的業務流程以及數據指標。
乘客端流程可劃分為:註冊/登陸、下單、服務、支付、評價/客服投訴。
核心流程中所產生的業務指標:1) 註冊/登陸階段:新用戶數、用戶數、不同渠道用戶數2) 下單階段:下單量、新用戶下單量、老用戶下單量、不同城市下單量數據、不同車型下單量數據、下單成功用戶數3) 決策階段:議價訂單數、非議價訂單數、決策階段用戶主動取消訂單數、決策階段超時取消數、數加價完成訂單數、減價完成訂單數4) 服務階段:下單成功用戶數、訂單時長、下單成功率、完單量、完單率、完單用戶數5) 支付階段:訂單金額、訂單平均金額、訂單優惠金額、計費差額6) 評價階段:好評率、差評率
司機端業務流程可劃分為:
業務流程中產生的核心業務指標:1) 註冊/登陸階段:註冊用戶數、新增用戶數2) 加盟階段:提交審核用戶數、審核通過用戶數、新註冊司機、累計註冊量、老司機量、新司機量3) 接單階段:在線司機數、聽單司機數、有效聽單司機數、中標司機數、中標率、日均中標司機數4) 決策階段:決策階段司機取消訂單數5) 服務:服務平均距離、平均時長、空駛平均距離、空駛平均時長6) 評價:司機好評率、司機差評率、平均星級7) 提現:司機余額、提現次數、提現金額
在明確用戶的業務過程後,需要根據分析決策的業務,劃分數據域,並在相應的數據域下拆解具體的業務過程。
第二步:劃分數據域
數據域:是聯系較為緊密的數據主題的集合,是對業務對象高度概括的概念層歸類,目的是便於數據管理與應用。
這裏相當於對數據進行分類,類似於我們電腦桌面要建立不同的文件夾來存儲數據。我們的數據是面向不同業務人員,比方說市場、運營、客服、風控等人員,而其關註的業務模塊大不相同。
而我們技術人員還要給他們提供各種不同的數據指標,找起來工作效率低,服務器計算成本高(妳想想在電腦搜索框查某壹文件名時,是不是很慢),業務人員也難以及時得到數據。沒辦法,那我就做個數據的分類吧,方便我們快速找數據,以及未來橫向擴展數據。
所以在劃分數據域時,我們也要註意:1) 能涵蓋當前所有的業務需求2) 能拓展新業務進入已有數據域,或者拓展新的數據域
這裏就相當於電腦上的文件夾命名,要包含當前所有的文件(數據),產生新文件時,能夠放到已有文件或者是方便新建壹個文件。
可以根據對業務需求、各個模塊的業務流程進行分析,進行數據域的劃分。通常數據域劃分可以根據企業部門劃分,如客服、運營、市場等;也可以按照業務過程或者業務板塊的功能模塊劃分。
例如網約車體系中用車業務域可劃分為如下表所示的數據域,依據實際業務過程進行歸納、抽象得出數據域。
第三步:定義指標規範——總線矩陣構建
我們梳理了業務域、數據域、業務過程的整體框架,接下來針對指標規範進行設計。
簡單點理解,相當於我們設計了文件夾的壹級、二級、三級目錄結構規範,現在要對該文件命名結構規範進行設計。
常用的指標基本是按照個人理解給予的命名,並沒有特別的規範,比如說日活/月活用戶量、近壹個月下單量、完單金額等。但隨著數據指標的增多,出現了很多限定條件下的指標,比如近7天北京快車下單量這樣的指標,這個指標是如何設計得到的,有沒有壹套指標規範設計呢?
如上圖所示,設計指標時需清晰定義業務域=用車業務、數據域=服務域、業務過程=下單、維度=城市、屬性=北京、時間周期=近7天、修飾詞=快車、度量/原子指標=下單量。通過增加對原子指標的約束條件,規範產生派生指標=近7天北京快車下單量,提供壹套通用的指標定義標準,方便不同業務部門的人理解指標含義。
以網約車體系中的服務域為例,制定如下總線矩陣,劃分業務過程為下單、派單、決策、開始行程、完單。
總線矩陣是數倉架構師會用的比較多,對於產品人員會比較難理解,其實就類似於數學中矩陣和排列組合,壹個原子指標的維度限制條件組合不同,可得到成千上萬個派生指標。
總結
本文主要從數據產品角度介紹,如何基於阿裏OneData進行網約車指標體系建設。通過對業務分析、數據域劃分及總線矩陣構建,來建立壹套指標設計規範。通過建立指標規範,可以提升研發和業務方的指標獲取效率,為後續自助式分析打下基礎。
在設計指標規範過程中發現會產生成千上萬個指標,那這些指標哪些是真正給業務方提供指導意義的呢?
下壹篇將會講解如何根據OSM模型和AARRR模型確定核心業務指標,以及如何設計指標字典。