根據美國數據庫營銷研究所Arthur Hughes的研究,客戶數據庫中有三個神奇的要素,這三個要素構成了數據分析最好的指標:最近壹次消費(Recency)、消費頻率(Frequency)、消費金額(Monetary)。
RFM模型:R(Recency)表示客戶最近壹次購買的時間有多遠,F(Frequency)表示客戶在最近壹段時間內購買的次數,M (Monetary)表示客戶在最近壹段時間內購買的金額。壹般原始數據為3個字段:客戶ID、購買時間(日期格式)、購買金額,用數據挖掘軟件處理,加權(考慮權重)得到RFM得分,進而可以進行客戶細分,客戶等級分類,Customer Level Value得分排序等,實現數據庫營銷!
這裏再次借用@數據挖掘與數據分析的RFM客戶RFM分類圖。
本次分析用的的軟件工具:IBM SPSS Statistics 19,IBM SPSS Modeler14.1,Tableau7.0,EXCEL和PPT
因為RFM分析僅是項目的壹個小部分分析,但也面臨海量數據的處理能力,這壹點對計算機的內存和硬盤容量都有要求。
先說說對海量數據挖掘和數據處理的壹點體會:(僅指個人電腦操作平臺而言)
壹般我們拿到的數據都是壓縮格式的文本文件,需要解壓縮,都在G字節以上存儲單位,壹般最好在外置電源移動硬盤存儲;如果客戶不告知,妳大概是不知道有多少記錄和字段的;
Modeler挖掘軟件默認安裝壹般都需要與C盤進行數據交換,至少需要100G空間預留,否則讀取數據過程中將造成空間不足
海量數據處理要有耐心,等待30分鐘以上運行出結果是常有的現象,特別是在進行抽樣、合並數據、數據重構、神經網絡建模過程中,要有韌性,否則差壹分鐘中斷就悲劇了,呵呵;
數據挖掘的準備階段和數據預處理時間占整個項目的70%,我這裏說如果是超大數據集可能時間要占到90%以上。壹方面是處理費時,壹方面可能就只能這臺電腦處理,不能幾臺電腦同時操作;
多帶來不同,這是我壹直強調的體驗。所以海量數據需要用到抽樣技術,用來查看數據和預操作,記住:有時候即使樣本數據正常,也可能全部數據有問題。建議數據分隔符采用“|”存儲;
如何強調壹個數據挖掘項目和挖掘工程師對行業的理解和業務的洞察都不為過,好的數據挖掘壹定是市場導向的,當然也需要IT人員與市場人員有好的溝通機制;
數據挖掘會面臨數據字典和語義層含義理解,在MetaData元數據管理和理解上下功夫會事半功倍,否則等數據重構完成發現問題又要推倒重來,悲劇;
每次海量大數據挖掘工作時都是我上微博最多的時侯,它真的沒我算的快,只好上微博等它,哈哈!
傳統RFM分析轉換為電信業務RFM分析主要思考:
這裏的RFM模型和進而細分客戶僅是數據挖掘項目的壹個小部分,假定我們拿到壹個月的客戶充值行為數據集(實際上有六個月的數據),我們們先用IBM Modeler軟件構建壹個分析流:
數據結構完全滿足RFM分析要求,壹個月的數據就有3千萬條交易記錄!
我們先用挖掘工具的RFM模型的RFM匯總節點和RFM分析節點產生R(Recency)、F(Frequency)、M (Monetary);
接著我們采用RFM分析節點就完成了RFM模型基礎數據重構和整理;
現在我們得到了RFM模型的Recency_Score、Frequency_Score、Monetary_Score和RFM_Score;這裏對RFM得分進行了五等分切割,采用100、10、1加權得到RFM得分表明了125個RFM魔方塊。
傳統的RFM模型到此也就完成了,但125個細分市場太多啦無法針對性營銷也需要識別客戶特征和行為,有必要進壹步細分客戶群;
另外:RFM模型其實僅僅是壹種數據處理方法,采用數據重構技術同樣可以完成,只是這裏固化了RFM模塊更簡單直接,但我們可以采用RFM構建數據的方式不為RFM也可用該模塊進行數據重構。
我們可以將得到的數據導入到Tableau軟件進行描述性分析:(數據挖掘軟件在描述性和制表輸出方面非常弱智,哈哈)
我們也可以進行不同塊的對比分析:均值分析、塊類別分析等等
這時候我們就可以看出Tableau可視化工具的方便性
接下來,我們繼續采用挖掘工具對R、F、M三個字段進行聚類分析,聚類分析主要采用:Kohonen、K-means和Two-step算法:
這時候我們要考慮是直接用R(Recency)、F(Frequency)、M (Monetary)三個變量還是要進行變換,因為R、F、M三個字段的測量尺度不同最好對三個變量進行標準化,例如:Z得分(實際情況可以選擇線性插值法,比較法,對標法等標準化)!另外壹個考慮:就是R、F、M三個指標的權重該如何考慮,在現實營銷中這三個指標重要性顯然不同!
有資料研究表明:對RFM各變量的指標權重問題,Hughes,Arthur認為RFM在衡量壹個問題上的權重是壹致的,因而並沒有給予不同的劃分。而Stone,Bob通過對信用卡的實證分析,認為各個指標的權重並不相同,應該給予頻度最高,近度次之,值度最低的權重;
這裏我們采用加權方法:WR=2 WF=3 WM=5的簡單加權法(實際情況需要專家或營銷人員測定);具體選擇哪種聚類方法和聚類數需要反復測試和評估,同時也要比較三種方法哪種方式更理想!
下圖是采用快速聚類的結果:
以及kohonen神經算法的聚類結果:
接下來我們要識別聚類結果的意義和類分析:這裏我們可以采用C5.0規則來識別不同聚類的特征:
其中Two-step兩階段聚類特征圖:
采用評估分析節點對C5.0規則的模型識別能力進行判斷:
結果還不錯,我們可以分別選擇三種聚類方法,或者選擇壹種更易解釋的聚類結果,這裏選擇Kohonen的聚類結果將聚類字段寫入數據集後,為方便我們將數據導入SPSS軟件進行均值分析和輸出到Excel軟件!
輸出結果後將數據導入Excel,將R、F、M三個字段分類與該字段的均值進行比較,利用Excel軟件的條件格式給出與均值比較的趨勢!結合RFM模型魔方塊的分類識別客戶類型:通過RFM分析將客戶群體劃分成重要保持客戶、重要發展客戶、重要挽留客戶、壹般重要客戶、壹般客戶、無價值客戶等六個級別;(有可能某個級別不存在);
另外壹個考慮是針對R、F、M三個指標的標準化得分按聚類結果進行加權計算,然後進行綜合得分排名,識別各個類別的客戶價值水平;
至此如果我們通過對RFM模型分析和進行的客戶細分滿意的話,可能分析就此結束!如果我們還有客戶背景資料信息庫,可以將聚類結果和RFM得分作為自變量進行其他數據挖掘建模工作!