當前位置:成語大全網 - 書法字典 - 主成分分析法簡介

主成分分析示例:平均值為(1,3)、在(0.878,0.478)方向的標準偏差為3、正交方向為1的高斯分布。這裏黑色顯示的兩個向量是該分布的協方差矩陣的特征向量,其長度與相應特征值的平方根成正比,並以原始分布的平均值為原點移動。

在多元統計分析中,主成分分析是壹種分析和簡化數據集的技術。主成分分析(PCA)通常用於降低數據集的維度,同時保持數據集中方差貢獻最大的特

主成分分析法簡介

主成分分析示例:平均值為(1,3)、在(0.878,0.478)方向的標準偏差為3、正交方向為1的高斯分布。這裏黑色顯示的兩個向量是該分布的協方差矩陣的特征向量,其長度與相應特征值的平方根成正比,並以原始分布的平均值為原點移動。

在多元統計分析中,主成分分析是壹種分析和簡化數據集的技術。主成分分析(PCA)通常用於降低數據集的維度,同時保持數據集中方差貢獻最大的特

主成分分析法簡介

主成分分析示例:平均值為(1,3)、在(0.878,0.478)方向的標準偏差為3、正交方向為1的高斯分布。這裏黑色顯示的兩個向量是該分布的協方差矩陣的特征向量,其長度與相應特征值的平方根成正比,並以原始分布的平均值為原點移動。

在多元統計分析中,主成分分析是壹種分析和簡化數據集的技術。主成分分析(PCA)通常用於降低數據集的維度,同時保持數據集中方差貢獻最大的特征。這是通過保留低階主成分並忽略高階主成分來實現的。這種低階組件通常可以保留數據的最重要方面。但是,這不是確定的,這取決於具體的應用。由於主成分分析依賴於給定的數據,因此數據的準確性對分析結果有很大影響。

主成分分析(PCA)是卡爾·皮爾遜在1901發明的,用於分析數據和建立數學模型。其方法主要是通過協方差矩陣的特征分解得到數據的主成分(即特征向量)及其權重(即特征值【3】)。PCA是利用特征量分析多元統計分布的最簡單方法。結果可以理解為對原始數據中方差的解釋:數據值的哪個方向對方差的影響最大?換句話說,PCA提供了壹種有效的數據降維方法;如果分析師從原始數據中刪除與最小特征值相對應的成分,則必須對獲得的低維數據進行優化(即以這種方式降維必須是丟失信息最少的方法)。主成分分析在分析復雜數據(如人臉識別)時特別有用。

PCA是利用特征量分析多元統計分布的最簡單方法。通常,這種操作可以視為揭示數據內部結構的方法,從而更好地解釋數據的變量。如果多元數據集可以在高維數據空間坐標系中顯示,那麽PCA可以提供相對低維的圖像,即原始對象在具有最多信息的點上的“投影”。這樣,少量的主成分可以用於降低數據的維度。

PCA與因子分析密切相關,有許多統計軟件包混合了這兩種分析。真正的因子分析是假設底層結構,得到微小差異矩陣的特征向量。

PCA(principal Component Analysis),即主成分分析,是最常用的特征降維方法。顧名思義,PCA可以從冗余特征中提取主要成分,這在不損失模型質量的情況下提高了模型的訓練速度。

如上圖所示,我們稱從樣本到紅色向量的距離為投影誤差。以二維投影到壹維投影為例,PCA是尋找壹條直線使每個特征的投影誤差足夠小,從而盡可能保留原始特征的信息。

PCA是壹種有損壓縮方法,因為它只保留特征的主要成分。

從主成分分析的實現過程中,我們知道有必要為主成分分析指定目標維數K。如果降維不多,性能提升不大;如果目標維度太小,就會丟失大量信息。

由於PCA降低了特征維數,也可能帶來過擬合的問題。PCA不是必需的。在機器學習中,必須記住不要提前優化。只有當算法運行效率不盡如人意時,才考慮使用PCA或其他特征降維手段來提高訓練速度。

降低特征維度不僅可以加快模型的訓練速度,還可以幫助我們在低維空間中分析數據。例如,在三維空間中完成的聚類問題可以通過PCA可視化。

根據13特征,葡萄酒被分類(賣給不同口味的人),PCA可以將數據從13維度降低到2個維度進行可視化。

數組(【【1.369e+01,3.260e+00,2.540e+00,2.000e+01,1.070e+02,1.830e+00,

5.600e-01、5.000e-01、8.000e-01、5.880e+00、9.600e-01、1.820e+00、

6.800e+02】,

1.269e+01,1.530e+00,2.260e+00,2.070e+01,8.000e+01,1.380e+00,

1.460e+00、5.800e-01、1.620e+00、3.050e+00、9.600e-01、2.060e+00、

4.950e+02】,

【1.162e+01,1.990e+00,2.280e+00,1.800e+01,9.800e+01,3.020e+00,

2.260e+00,1.700e-01,1.350e+00,3.250e+00,1.160e+00,2.960e+00,

3.450e+02】】)

數組(【【0.87668336,0.79842885,0.64412971,0.12974277,0.48853231,

-0.70326216, -1.42846826, 1.0724566 , -1.36820277, 0.35193216,

0.0290166 , -1.06412236, -0.2059076 ],

[-0.36659076, -0.7581304 , -0.39779858, 0.33380024, -1.41302392,

-1.44153145, -0.5029981 , 1.70109989, 0.02366802, -0.84114577,

0.0290166 , -0.73083231, -0.81704676],

[-1.69689407, -0.34424759, -0.32337513, -0.45327855, -0.14531976,

1.24904997, 0.31964204, -1.52069698, -0.4346309 , -0.75682931,

0.90197362, 0.51900537, -1.31256499]])

數組(【0.36884109,0.19318394,0.10752862,0.07421996,0.06245904,

0.04909 , 0.04117287, 0.02495984, 0.02308855, 0.01864124,

0.01731766, 0.01252785, 0.00696933])

數組(【【-2.17884511,-1.07218467),

[-1.80819239, 1.57822344],

[ 1.09829474, 2.22124345]])

logistic regression(C = 1.0,class_weight=None,dual=False,fit_intercept=True,

intercept_scaling=1,max_iter=100,multi _ class =‘ovr‘,n_jobs=1,

penalty =‘L2‘,random_state=0,solver =‘liblinear‘,tol=0.0001,

詳細=0,暖啟動=假)

數組(【1,3,2,1,2】)

數組(【【14,0,0】,

[ 1, 15, 0],

[ 0, 0, 6]])

準確度(精度)為:0.9000.000000005

參考資料:https://zh.wikipedia.org/wiki/主成分分析。

斯坦福機器學習

機器學習A-Z