當前位置:成語大全網 - 書法字典 - 機器學習中特征選擇的工程方法有哪些?

機器學習中特征選擇的工程方法有哪些?

特征選擇是特征工程中的壹個重要問題(另壹個重要問題是特征提取)。人們常說,數據和特征決定了機器學習的上限,而模型和算法只是接近這個上限。可見,特征工程,尤其是特征選擇,在機器學習中起著非常重要的作用。壹般來說,特征選擇是指選擇獲得相應模型和算法最佳性能的特征集。工程中常用的方法有:1。計算各特征與響應變量的相關性:工程上常用的方法有計算皮爾遜系數和互信息系數。皮爾遜系數只能度量線性相關性,而互信息系數可以很好地度量各種相關性,但計算相對復雜。幸運是,許多工具包都包含這個工具(比如我的sklearn) 2。建立單個特征的模型,按照模型的精度對特征進行排序,從而進行特征選擇。另外我記得JMLR 03年的壹篇論文介紹了壹種基於決策樹的特征選擇方法,本質上是等價的。當目標特征被選擇時,它們被用於訓練最終的模型。3.L1正則化項選擇特征:L1正則化方法具有稀疏解的特點,因此自然具有特征選擇的特點。但是需要註意的是,沒有被L1選擇的特征並不代表它們不重要,因為相關性高的兩個特征可能只剩下壹個,如果要確定哪個特征重要,要通過L2正則化方法交叉檢驗;4.訓練預選的可以評分特征的模型:RandomForest和Logistic回歸可以對模型的特征進行評分,通過評分得到相關性後再訓練最終的模型;5.特征組合後選擇特征:如果將用戶id和用戶特征組合在壹起得到更大的特征集,那麽選擇特征,這在推薦系統和廣告系統中很常見。這也是所謂億級甚至億級特征的主要來源,因為用戶數據稀疏,組合的特征可以兼顧全局模型和個性化模型。這個問題可以同時討論。6.通過深度學習進行特征選擇:目前這種方法隨著深度學習的普及正在成為壹種手段,尤其是在計算機視覺領域,因為深度學習具有自動學習特征的能力,這也是為什麽深度學習也被稱為無監督特征學習。在從深度學習模型中選擇神經層的特征之後,它可以用於訓練最終的目標模型。綜合來看,特征選擇是壹個兼具學術和工程價值的問題,也是目前研究領域的熱點,值得所有做機器學習的朋友關註。