主成分分析示例:平均值為(1,3)、在(0.878,0.478)方向的標準偏差為3、正交方向為1的高斯分布。這裏黑色顯示的兩個向量是該分布的協方差矩陣的特征向量,其長度與相應特征值的平方根成正比,並以原始分布的平均值為原點移動。
在多元統計分析中,主成分分析是壹種分析和簡化數據集的技術。主成分分析(PCA)通常用於降低數據集的維度,同時保持數據集中方差貢獻最大的特
主成分分析示例:平均值為(1,3)、在(0.878,0.478)方向的標準偏差為3、正交方向為1的高斯分布。這裏黑色顯示的兩個向量是該分布的協方差矩陣的特征向量,其長度與相應特征值的平方根成正比,並以原始分布的平均值為原點移動。
在多元統計分析中,主成分分析是壹種分析和簡化數據集的技術。主成分分析(PCA)通常用於降低數據集的維度,同時保持數據集中方差貢獻最大的特征。這是通過保留低階主成分並忽略高階主成分來實現的。這種低階組件通常可以保留數據的最重要方面。但是,這不是確定的,這取決於具體的應用。由於主成分分析依賴於給定的數據,因此數據的準確性對分析結果有很大影響。
主成分分析(PCA)是卡爾·皮爾遜在1901發明的,用於分析數據和建立數學模型。其方法主要是通過協方差矩陣的特征分解得到數據的主成分(即特征向量)及其權重(即特征值【3】)。PCA是利用特征量分析多元統計分布的最簡單方法。結果可以理解為對原始數據中方差的解釋:數據值的哪個方向對方差的影響最大?換句話說,PCA提供了壹種有效的數據降維方法;如果分析師從原始數據中刪除與最小特征值相對應的成分,則必須對獲得的低維數據進行優化(即以這種方式降維必須是丟失信息最少的方法)。主成分分析在分析復雜數據(如人臉識別)時特別有用。
PCA是利用特征量分析多元統計分布的最簡單方法。通常,這種操作可以視為揭示數據內部結構的方法,從而更好地解釋數據的變量。如果多元數據集可以在高維數據空間坐標系中顯示,那麽PCA可以提供相對低維的圖像,即原始對象在具有最多信息的點上的“投影”。這樣,少量的主成分可以用於降低數據的維度。
PCA與因子分析密切相關,有許多統計軟件包混合了這兩種分析。真正的因子分析是假設底層結構,得到微小差異矩陣的特征向量。
PCA(principal Component Analysis),即主成分分析,是最常用的特征降維方法。顧名思義,PCA可以從冗余特征中提取主要成分,這在不損失模型質量的情況下提高了模型的訓練速度。
如上圖所示,我們稱從樣本到紅色向量的距離為投影誤差。以二維投影到壹維投影為例,PCA是尋找壹條直線使每個特征的投影誤差足夠小,從而盡可能保留原始特征的信息。
PCA是壹種有損壓縮方法,因為它只保留特征的主要成分。
從主成分分析的實現過程中,我們知道有必要為主成分分析指定目標維數K。如果降維不多,性能提升不大;如果目標維度太小,就會丟失大量信息。
由於PCA降低了特征維數,也可能帶來過擬合的問題。PCA不是必需的。在機器學習中,必須記住不要提前優化。只有當算法運行效率不盡如人意時,才考慮使用PCA或其他特征降維手段來提高訓練速度。
降低特征維度不僅可以加快模型的訓練速度,還可以幫助我們在低維空間中分析數據。例如,在三維空間中完成的聚類問題可以通過PCA可視化。
根據13特征,葡萄酒被分類(賣給不同口味的人),PCA可以將數據從13維度降低到2個維度進行可視化。
數組(【【1.369e+01,3.260e+00,2.540e+00,2.000e+01,1.070e+02,1.830e+00,
5.600e-01、5.000e-01、8.000e-01、5.880e+00、9.600e-01、1.820e+00、
6.800e+02】,
1.269e+01,1.530e+00,2.260e+00,2.070e+01,8.000e+01,1.380e+00,
1.460e+00、5.800e-01、1.620e+00、3.050e+00、9.600e-01、2.060e+00、
4.950e+02】,
【1.162e+01,1.990e+00,2.280e+00,1.800e+01,9.800e+01,3.020e+00,
2.260e+00,1.700e-01,1.350e+00,3.250e+00,1.160e+00,2.960e+00,
3.450e+02】】)
數組(【【0.87668336,0.79842885,0.64412971,0.12974277,0.48853231,
-0.70326216, -1.42846826, 1.0724566 , -1.36820277, 0.35193216,
0.0290166 , -1.06412236, -0.2059076 ],
[-0.36659076, -0.7581304 , -0.39779858, 0.33380024, -1.41302392,
-1.44153145, -0.5029981 , 1.70109989, 0.02366802, -0.84114577,
0.0290166 , -0.73083231, -0.81704676],
[-1.69689407, -0.34424759, -0.32337513, -0.45327855, -0.14531976,
1.24904997, 0.31964204, -1.52069698, -0.4346309 , -0.75682931,
0.90197362, 0.51900537, -1.31256499]])
數組(【0.36884109,0.19318394,0.10752862,0.07421996,0.06245904,
0.04909 , 0.04117287, 0.02495984, 0.02308855, 0.01864124,
0.01731766, 0.01252785, 0.00696933])
數組(【【-2.17884511,-1.07218467),
[-1.80819239, 1.57822344],
[ 1.09829474, 2.22124345]])
logistic regression(C = 1.0,class_weight=None,dual=False,fit_intercept=True,
intercept_scaling=1,max_iter=100,multi _ class =‘ovr‘,n_jobs=1,
penalty =‘L2‘,random_state=0,solver =‘liblinear‘,tol=0.0001,
詳細=0,暖啟動=假)
數組(【1,3,2,1,2】)
數組(【【14,0,0】,
[ 1, 15, 0],
[ 0, 0, 6]])
準確度(精度)為:0.9000.000000005
參考資料:https://zh.wikipedia.org/wiki/主成分分析。
斯坦福機器學習
機器學習A-Z