當前位置:成語大全網 - 漢語詞典 - r語言-17決策樹

r語言-17決策樹

它是壹種預測模型,分為回歸決策樹和分類決策樹。根據已知樣本訓練壹個樹模型,這樣就可以根據這個模型預測新的樣本因變量,得到預測值或預測分類。

從根節點到葉節點的路徑對應壹個規則,整個決策樹對應壹組表達式規則。葉節點表示在此規則下獲得的預測值。如下圖的決策樹模型,就是根據房產、婚姻、月收入三個屬性,得出貸款能否還的規則。

核心是如何從眾多屬性中選擇有代表性的屬性作為決策樹的分支節點。

有三種基本的測量方法來選擇屬性。

1.信息增益(ID3算法)

信息熵

信源發出什麽符號是不確定的,可以根據它出現的概率來衡量。概率大,機會多,不確定性小;反之,不確定性就很大。不確定度函數f是概率p的減函數,兩個獨立符號產生的不確定度應該等於它們各自的不確定度之和,即f (P1,P2) = f (P1)+f (P2),稱為可加性。同時滿足這兩個條件的函數f是對數函數,即

在信源中,我們要考慮的不是單個符號的不確定性,而是這個信源所有可能情況的平均不確定性。因此,信息熵被定義為

決策樹分類過程

2.增益率(C4.5算法)

信息增益的缺點是傾向於選擇值多的屬性,因為每個值多的屬性數據量小,傾向於信息純度高。所以增益率用這個屬性代替的信息增益/系統熵(類似於上壹步用這個屬性計算的系統熵代替play的比率)來試圖克服這個缺點。

G(D,A)表示D數據集屬性A的信息增益,

3.基尼指數(CART算法)

基尼指數:

表示樣本集中隨機選擇的樣本被錯誤分類的概率。集合越小,所選樣本被錯誤分類的概率越小,也就意味著集合的純度越高。

假設集合中有k個類別,則:

描述:

1.pk表示所選樣本屬於K類的概率,因此該樣本被錯誤分類的概率為(1-pk)。

2.樣本集中有K個類別,壹個隨機選擇的樣本可以屬於這K個類別中的任何壹個,所以將類別相加。

3.對於二元分類,Gini(P) = 2p(1-p)

基尼指數將屬性A分為兩部分,因此得到二叉樹。當它是離散屬性時,離散屬性的類別將被成對組合以計算基尼指數。

例如:

和上面的特征溫度壹樣,這個特征有三個特征值:“熱”、“溫和”、“涼爽”。

當樣本集D按“學歷”這壹特征劃分時,分別有三個劃分值,那麽就有三個可能的劃分集,劃分後的子集如下:

對於上面的每個劃分,基於劃分特征=某個特征值將樣本集D劃分成兩個子集的純度可以被計算:

決策數分類過程

先修剪:提前停止樹的施工。構建樹時,使用信息增益、統計顯著性等。當節點的劃分導致低於上述度量的預定義閾值時,停止進壹步的劃分。然而,很難確定閾值。

後期修剪:比較常用,先得到完全長大的樹,然後自下而上,用最低節點的葉子替換節點。

CART使用成本復雜度剪枝算法:計算剪枝後和剪枝前每個節點的成本復雜度。如果節點被剪枝,代價復雜度小(復雜度是節點和樹之間錯誤率的函數,即誤分類率),那麽就剪枝。

C4.5采用悲觀剪枝:類似於代價復雜度,但CART使用剪枝集來評估代價復雜度,C4.5使用訓練集加壹個懲罰來評估錯誤率。

決策樹的可擴展性

ID3\C4.5\CART是為較小的數據集設計的,這些數據集都限制了訓練祖先留在內存中。為了解決可擴展性問題,提出了其他算法,如

雨林:為每個屬性維護壹個AVC集,描述節點的訓練元組,所以把AVC集放在內存裏就行了。

小船自助樂觀算法:利用統計學,創建給定訓練數據的小樣本,每個樣本構造壹棵樹,產生多棵樹,然後用它們構造1棵新樹。優點是可以增量更新。當插入或刪除數據時,只需要更新決策樹,而不需要重建。

決策樹的可視化挖掘

PBC系統可以允許用戶指定多個拆分點,從而產生多個分支機構。傳統決策樹算法的數值屬性是二元劃分。並且可以交互式地構建樹。

Rpart采用cart算法,連續“ANOVA”;離散的“類”;

2)剪枝函數: ()

3)計算MAE評估的回歸樹模型誤差,其中樣本分為訓練集和測試集,testdata為測試集。

Rt.mae根據從訓練集得到的決策樹模型,得到測試集因變量的預測結果與測試集因變量的實際值之間的平均絕對誤差。