準則:選擇節點劃分質量的衡量標準。默認使用‘基尼’,即基尼系數,這是CART算法中采用的衡量標準。該參數也可以設置為?“熵”代表信息增益,是C4.5算法中采用的壹種度量。
Splitter:節點劃分的策略,默認情況下使用“最佳”。“‘最佳’”是指根據選擇的準則標準選擇最優劃分屬性來劃分節點,壹般在訓練樣本數據不大的情況下使用,因為選擇最優劃分屬性需要計算每個候選屬性下的劃分結果;該參數也可以設置為“隨機”,表示最優的隨機劃分屬性。壹般用在訓練數據量較大的場合,可以減少計算量,但最優隨機劃分如何實現暫時還不清楚,所以需要查看這部分的源代碼。
Max_depth:設置決策樹的最大深度,默認為無。None表示決策樹的最大深度不受約束,直到每個葉節點上的樣本屬於同壹個類,或者小於min_samples_leaf參數指定的葉節點上的樣本數。您還可以指定壹個整數值,並設置樹的最大深度。當樣本數據較大時,可以通過設置該參數提前結束樹的生長,改善過擬合問題,但壹般不建議這樣做。通過剪枝來改善過擬合問題更有效。
Min_samples_split:劃分內部節點時,要求節點上的最小樣本數,默認值為2。
Min_samples_leaf:設置葉節點上的最小樣本數,默認為1。當試圖劃分壹個節點時,只有當其左右分支上的樣本數不小於該參數指定的值時,該節點才會被劃分。換句話說,當壹個葉節點上的樣本數小於該參數指定的值時,該葉節點及其兄弟節點將被刪除。當樣本數據較大時,可以考慮增加這個值,提前結束樹的增長。
Min_weight_fraction_leaf:在引入樣本權重的情況下,設置每個葉子節點上樣本權重和的最小值。壹旦葉節點上的樣本權重和小於該參數指定的值,該葉節點將與其同級節點壹起被減去,即其父節點不會被除。該參數的默認值為0,表示不考慮重量的問題。如果樣本中缺失值較多,或者樣本類別的分布偏差較大,則會引入樣本權重,因此需要謹慎設置該參數。
Max_features:設置劃分節點和尋找最優劃分屬性時可以搜索的最大屬性數;默認值為無。假設訓練集中包含的屬性個數為n,None表示搜索所有n個候選屬性;“Auto”表示最多搜索sqrt(n)個屬性;Sqrt表示最多搜索sqrt(n)個屬性;‘log2’表示最多搜索log2(n)個屬性;用戶還可以指定壹個整數k,這意味著最多搜索k個屬性。需要註意的是,雖然設置了參數max_features,但是在找到至少壹個有效的分區屬性之前,對最優分區屬性的搜索不會停止(也就是說,在對該屬性進行分區之後,criterion指定的度量得到了改進)。
隨機_狀態?:當參數splitter設置為“隨機”時,您可以通過此參數設置隨機種子數。默認值是None,這意味著由np.random生成的隨機種子數。
Max_leaf_nodes:設置決策樹的最大葉節點數。該參數與max_depth等參數壹起限制了決策樹的復雜度。默認值為None,這意味著沒有限制。
min _雜質_減少?:當要分割內部節點時,只有當雜質的減少值(可以用criterion參數指定的度量來描述)不小於該參數指定的值時,才會分割該節點。默認值為0。通過設置該參數,可以提前結束樹的生長。
min _雜質_分裂:?當要分割內部節點時,只有當節點上的雜質不小於該參數指定的值時,才會分割該節點。默認值是1e-7。該參數值在0.25版本後將被取消,取而代之的是min _ importance _ decrease。
Class_weight:設置樣本數據中每個類的權重,其中權重是針對整個類的數據設置的,默認值為None,即不應用權重。用戶可以使用典型的單詞數據或詞典列表數據來指定每個類別的權重。假設樣本中有4個類別,可以根據?[{0: 1, 1: 1}, {0: 1, 1: 5}, {0: 1, 1: 1}, {0: 1, 1: 1}]?這個輸入表單將四個類的權重分別設置為1、5、1和1,而不是?[{1: 1}, {2: 5}, {3: 1}, {4: 1}].該參數也可以設置為“平衡”,此時系統會根據輸入的樣本數據自動計算每壹類的權重。計算公式為:n_samples?/?(n_classes?*?Np.bincount(y)),其中n_samples表示輸入樣本的總數,n_classes表示輸入樣本中類別的總數,np.bincount(y)表示屬於每個類別的樣本數的計算。可以看出,屬於壹個類別的樣本越多,該類別的權重越小。如果用戶單獨指定每個樣品的重量並設置class_weight參數,系統會將樣品的重量單獨乘以class_weight指定的樣品類別的重量,作為樣品的最終重量。
預排序:設置搜索對訓練數據進行預排序,提高節點的最優劃分屬性;默認值為False。當訓練集較大時,預排序會減慢決策樹的構建速度,不建議使用。但是,當訓練集很小或者樹的深度有限時,預排序可以提高樹的構造速度。