當前位置:成語大全網 - 書法字典 - 決策樹學習屬於什麽流派?

決策樹學習屬於什麽流派?

決策樹是壹種基本的分類和回歸方法。本文只討論決策樹用於分類的方法。決策樹學習通常分為三步:決策樹學習的思想主要來源於定義決策樹:

分類決策樹模型是壹種描述分類實例的樹形結構。決策樹由節點和有向邊組成。節點分為內部節點和葉節點。內部節點代表壹個特性或屬性,葉節點代表壹個類。

Shape:其中圓圈代表內部節點,方框代表葉節點。如果-那麽規則,簡而言之:

例如,對於壹個蘋果,外觀是紅色的,但外觀是綠色的。可以表示為:

If-then規則集有壹個重要的屬性:

這意味著每個實例被壹個路徑或規則覆蓋,並且只被壹個路徑或規則覆蓋。這裏所謂的覆蓋是指實例的特征與路徑上的特征壹致,或者實例滿足規則的條件。給定數據集:

其中,是包含功能的輸入實例(),是類標記,而是。目標:

根據給定的訓練數據集,構造壹個決策樹模型,該模型能夠正確地對實例進行分類。特征選擇在於選擇能夠對訓練數據進行分類的特征,可以提高決策樹學習的效率。如果利用某個特征進行分類的結果和隨機分類的結果相差不大,就說這個特征沒有分類能力。那麽問題來了,如何選擇功能?通常特征選擇的標準是

這裏有壹些例子來說明。目標:

希望通過給定的訓練集數據,學習壹個貸款申請的決策樹。當新客戶申請貸款時,決策樹用於根據申請人的特征決定是否批準貸款申請。可見這裏* * *有四個特征可供選擇。特征選擇的標準是。接下來,介紹壹下。:

熵是不確定性的度量。Let是壹個有有限個值的隨機變量,它的概率分布是

隨機變量的熵定義為

如果是,請定義。對數通常以2為底或以2為底,熵的單位分布為比特或nat。

從上面的公式可以看出,熵只取決於分布,而與值無關,所以的熵也可以記為,即,

從定義上看,

例如,當隨機變量只有兩個值時,的分布是

熵是

熵隨概率變化的曲線是當或,隨機變量完全沒有不確定性時,熵值最大,隨機變量的不確定性最大。讓壹個隨機變量

條件熵表示隨機變量在已知條件下的不確定性。給定條件下隨機變量的條件熵定義為給定條件下條件概率分布的熵對。

信息增益

特征對訓練集的信息增益

根據信息增益準則,特征選擇方法:對於訓練集,計算每個特征的信息增益,比較大小,選擇信息增益最大的特征。定義每個量的算法:早期信息增益

輸入:訓練集和特征;

輸出:特征對訓練集的信息增益。回頭看看剛才的例子,解決方法是:

這次我無聊了,想用。csv。所以訓練數據集如下,我保存在壹個loan.csv文件中。各種加工。csv文件壹般由python的熊貓模塊完成。第壹步是導入相關模塊。

第二步:如果使用jupyter讀入數據,可以立即檢查數據和數據標簽。可以看出,前四個標簽'年齡','工作','自有房屋','信用條件'除了' ID '就是我們壹直在說的特征,最後壹個標簽' label '就是我們在說的階層,所以我們需要處理這些標簽。

第三步,計算訓練集的熵:

在這裏,我們將使用熊貓的壹個統計數據函數groupby(by = [column ])。組,以字典的形式來統計數據,這樣更抽象。看下圖,把我們用熊貓讀入的數據分成兩類,Index代表指數,即0,1,4,5,6。14(python從0開始計數),第2,3,7,8,9,10,11,12,13數據。

然後計算訓練集的熵。

第四步,計算特征對數據集的條件熵。

第五步,計算信息增益。

輸入:訓練集以及特征和閾值;

輸出:決策樹

如果(1)中的所有實例都屬於同壹個類,則為單節點樹,類作為節點的類標簽返回;

(2)如果是,則為單節點樹,將其中實例數最多的類作為該節點的類標識,並返回;

(3)否則,根據上述信息增益算法,計算中每個特征對的信息增益,選擇信息增益最大的特征;

(4)如果特征的信息增益小於閾值,則設置為單節點樹,實例數最多的類作為該節點的類標記,返回;

(5)否則,將對的每壹個可能值分成若幹個非空子集,將對中實例數最多的類作為節點的類標記,從而構造壹個子節點,該節點及其子節點形成壹棵樹並返回;

(6)對具有訓練集和特征集的子節點遞歸調用步驟(1)至(5),得到子樹並返回。對於上表的訓練集數據,使用ID3算法建立決策樹。解決方案:第壹次叠代:

特點:有自己的房子將數據集分為兩個子集(有自己的房子)和(沒有自己的房子)。觀察and::因為所有實例都屬於同壹個類,所以它是壹個葉節點,節點的類標記為“是”。:對於,您需要從功能中選擇壹個新功能。第二次叠代:將被視為新的數據集。特征:壹個作業有兩個可能的值,分為兩個子集(有作業)和(沒有作業)。觀察and::因為所有實例都屬於同壹個類,所以它是壹個葉節點,節點的類標記為“是”。: