為...我們希望從壹個維度減少到另壹個維度,同時希望盡量減少信息的損失。例如,從尺寸到:
我們可以將維數減少到第壹主成分軸或第二主成分軸。那麽如何找到這些主分量軸並選擇最優分量軸呢?
直觀上,第壹主成分軸優於第二主成分軸,即具有最大的可分性。
我們來解決壹些基本概念。
為了獲得原始數據的新的表示空間,最簡單的方法是對原始數據執行線性變換(基變換):
其中是原始樣本、基向量和新表達式。
數學表達式:
其中是表示第壹個基數的行向量,是表示第壹條原始數據記錄的列向量。
維度
以直角坐標系中的點(3,2)為例,如果要將點(3,2)轉換為新基上的坐標,則應使用(3,2)以第壹個基作為第壹個新坐標分量進行內積運算,然後使用(3,2)以第二個基作為第二個新坐標分量進行內積運算。
可以稍微概括壹下。如果我們有M個二維向量,我們只需要將這些二維向量按列排列成壹個兩行M列的矩陣,然後將這個矩陣與“基矩陣”相乘,就可以得到所有這些向量在新基下的值。例如(1,1),(2,2),(3,3),如果要變換到剛才的基集,可以這樣表示:
回過頭來看,我們的目標是盡量減少降維過程中的損失,換句話說,我們希望投影數據盡可能分散。這種分散程度可以用方差來表示,方差越大,數據越分散。
隨機變量表示的值與其數學期望值之間的偏差程度。如果它很小,則意味著值主要集中在期望值附近,反之,如果它很大,則意味著值很分散。
為了避免過於抽象,讓我們從壹個具體的例子開始。假設我們有五個樣本數據,即以矩陣形式表示它們:
為了方便後續處理,我們首先從每個字段中的所有值中減去字段平均值,結果是每個字段都成為0的平均值。
讓我們看看上面的數據,假設第壹個特征是,第二個特征是,此時,壹個示例可以寫:
特征的平均值為2,特征的平均值為3,因此變換後:
在概率論和統計學中,協方差用於度量兩個變量的總誤差。
例如,對於二維隨機變量,除了它們自身的數學期望和方差之外,還需要討論它們之間關系的數學特征。
當變量完全獨立時,這也是我們希望達到的優化目標。
方差是協方差的特殊情況,即兩個變量相同時:
對於二維隨機變量,
對於n維隨機變量,
可以看出,協方差矩陣是行和列的對稱矩陣,方差在主對角線上,協方差在副對角線上。
讓我們用壹個具體的例子來展開,或者說這五個樣本數據,並在去中心化後以矩陣形式表示它們:
所以如果有樣本,
對進行壹些變換,通過乘法進行轉置,然後乘以系數1/m:
這不是協方差矩陣嗎?
現在我們可以說:
要查看:
設be的協方差矩陣,be的協方差矩陣和。
我們所尋求的只是原始協方差矩陣的對角化。
現在所有的焦點都在協方差矩陣的對角化上。
從上可知,協方差矩陣是壹個對稱矩陣,而在線性代數中,實對稱矩陣有壹系列非常好的性質:
1)實對稱矩陣的不同特征值對應的特征向量必須正交。
2)如果特征向量的重數為,則壹定有壹個線性無關的特征向量與之對應,因此這個特征向量單元可以正交化。
從上面兩個我們可以知道,壹個真正對稱的行列矩陣肯定可以找到壹個單位正交特征向量。假設這個特征向量存在,我們將按列形成壹個矩陣:
那麽協方差矩陣具有以下結論:
其中是對角矩陣,其對角元素是每個特征向量對應的特征值(可能有重復)。
結合上面的公式:
其中是對角矩陣,我們可以得到:
它是協方差矩陣的特征向量單位化後按行排列的矩陣,其中每壹行是壹個特征向量。如果按照特征值降序從上到下排列特征向量,則將前面幾行組成的矩陣乘以原始數據矩陣,得到降維後的數據矩陣。
總結主成分分析的算法步驟:
存在條帶尺寸數據。
1)將原始數據形成壹個X乘列的行列矩陣。
2)對每條線(表示壹個特征)進行零平均,即減去這條線的平均值。
3)找到協方差矩陣
4)求協方差矩陣的特征值和對應的特征向量。
5)將特征向量按照對應的特征值從上到下排列成矩陣,取前面的行組成矩陣。
6)是降維後的數據。
如上所述:
以矩陣形式表示它們:
我們使用PCA方法將這組二維數據降維為壹維。
為了方便後續處理,我們首先從每個特征中的所有值中減去字段平均值,結果是每個字段都成為0的平均值。
因為這個矩陣的每壹行已經是零均值,這裏我們直接找到協方差矩陣:
對於矩陣:
並且分別是特征值和特征向量,
,然後:
為了使這個方程有非零解,矩陣的行列式必須是0:
即:
然後:
分解的:
找到了兩個特征值,,
何時:
即:
然後:
總和可以取任何值,我們取歸壹化總和,也就是說,
此時和
何時:
即:
然後:
並且可以取任何值,我們取歸壹化和,即:
此時和
所以:
協方差矩陣c的對角化可以被驗證:
最後,我們使用第壹行乘以數據矩陣,得到降維後的表示:
降維投影的結果如下: