當前位置:成語大全網 - 書法字典 - 主成分分析法的詳細說明

主成分分析法的詳細說明

主成分分析是最重要的數據降維方法之壹。本文從主成分分析的思想出發,逐步推導出主成分分析法。

為...我們希望從壹個維度減少到另壹個維度,同時希望盡量減少信息的損失。例如,從尺寸到:

我們可以將維數減少到第壹主成分軸或第二主成分軸。那麽如何找到這些主分量軸並選擇最優分量軸呢?

直觀上,第壹主成分軸優於第二主成分軸,即具有最大的可分性。

我們來解決壹些基本概念。

為了獲得原始數據的新的表示空間,最簡單的方法是對原始數據執行線性變換(基變換):

其中是原始樣本、基向量和新表達式。

數學表達式:

其中是表示第壹個基數的行向量,是表示第壹條原始數據記錄的列向量。

維度

以直角坐標系中的點(3,2)為例,如果要將點(3,2)轉換為新基上的坐標,則應使用(3,2)以第壹個基作為第壹個新坐標分量進行內積運算,然後使用(3,2)以第二個基作為第二個新坐標分量進行內積運算。

可以稍微概括壹下。如果我們有M個二維向量,我們只需要將這些二維向量按列排列成壹個兩行M列的矩陣,然後將這個矩陣與“基矩陣”相乘,就可以得到所有這些向量在新基下的值。例如(1,1),(2,2),(3,3),如果要變換到剛才的基集,可以這樣表示:

回過頭來看,我們的目標是盡量減少降維過程中的損失,換句話說,我們希望投影數據盡可能分散。這種分散程度可以用方差來表示,方差越大,數據越分散。

隨機變量表示的值與其數學期望值之間的偏差程度。如果它很小,則意味著值主要集中在期望值附近,反之,如果它很大,則意味著值很分散。

為了避免過於抽象,讓我們從壹個具體的例子開始。假設我們有五個樣本數據,即以矩陣形式表示它們:

為了方便後續處理,我們首先從每個字段中的所有值中減去字段平均值,結果是每個字段都成為0的平均值。

讓我們看看上面的數據,假設第壹個特征是,第二個特征是,此時,壹個示例可以寫:

特征的平均值為2,特征的平均值為3,因此變換後:

在概率論和統計學中,協方差用於度量兩個變量的總誤差。

例如,對於二維隨機變量,除了它們自身的數學期望和方差之外,還需要討論它們之間關系的數學特征。

當變量完全獨立時,這也是我們希望達到的優化目標。

方差是協方差的特殊情況,即兩個變量相同時:

對於二維隨機變量,

對於n維隨機變量,

可以看出,協方差矩陣是行和列的對稱矩陣,方差在主對角線上,協方差在副對角線上。

讓我們用壹個具體的例子來展開,或者說這五個樣本數據,並在去中心化後以矩陣形式表示它們:

所以如果有樣本,

對進行壹些變換,通過乘法進行轉置,然後乘以系數1/m:

這不是協方差矩陣嗎?

現在我們可以說:

要查看:

設be的協方差矩陣,be的協方差矩陣和。

我們所尋求的只是原始協方差矩陣的對角化。

現在所有的焦點都在協方差矩陣的對角化上。

從上可知,協方差矩陣是壹個對稱矩陣,而在線性代數中,實對稱矩陣有壹系列非常好的性質:

1)實對稱矩陣的不同特征值對應的特征向量必須正交。

2)如果特征向量的重數為,則壹定有壹個線性無關的特征向量與之對應,因此這個特征向量單元可以正交化。

從上面兩個我們可以知道,壹個真正對稱的行列矩陣肯定可以找到壹個單位正交特征向量。假設這個特征向量存在,我們將按列形成壹個矩陣:

那麽協方差矩陣具有以下結論:

其中是對角矩陣,其對角元素是每個特征向量對應的特征值(可能有重復)。

結合上面的公式:

其中是對角矩陣,我們可以得到:

它是協方差矩陣的特征向量單位化後按行排列的矩陣,其中每壹行是壹個特征向量。如果按照特征值降序從上到下排列特征向量,則將前面幾行組成的矩陣乘以原始數據矩陣,得到降維後的數據矩陣。

總結主成分分析的算法步驟:

存在條帶尺寸數據。

1)將原始數據形成壹個X乘列的行列矩陣。

2)對每條線(表示壹個特征)進行零平均,即減去這條線的平均值。

3)找到協方差矩陣

4)求協方差矩陣的特征值和對應的特征向量。

5)將特征向量按照對應的特征值從上到下排列成矩陣,取前面的行組成矩陣。

6)是降維後的數據。

如上所述:

以矩陣形式表示它們:

我們使用PCA方法將這組二維數據降維為壹維。

為了方便後續處理,我們首先從每個特征中的所有值中減去字段平均值,結果是每個字段都成為0的平均值。

因為這個矩陣的每壹行已經是零均值,這裏我們直接找到協方差矩陣:

對於矩陣:

並且分別是特征值和特征向量,

,然後:

為了使這個方程有非零解,矩陣的行列式必須是0:

即:

然後:

分解的:

找到了兩個特征值,,

何時:

即:

然後:

總和可以取任何值,我們取歸壹化總和,也就是說,

此時和

何時:

即:

然後:

並且可以取任何值,我們取歸壹化和,即:

此時和

所以:

協方差矩陣c的對角化可以被驗證:

最後,我們使用第壹行乘以數據矩陣,得到降維後的表示:

降維投影的結果如下: