當前位置:成語大全網 - 漢語詞典 - LDA公式的推導

LDA公式的推導

根據符號描述,類別I的樣本平均值為:

同樣,我們也可以得到整體樣本的平均值:

根據類間離差矩陣和類內離差矩陣的定義,可以得到如下公式:

當然,類間離差矩陣還有另壹種表達方式:

指的是第I類樣本的先驗概率,即樣本屬於第I類的概率,把P(i)代入第二組公式,可以發現第壹組公式只比第二組公式少乘以1/m,這個我們後面會討論。其實對於1/m的乘與不乘對算法本身沒有影響,我們來分析壹下算法的思路。

我們可以知道,矩陣的實際意義是壹個協方差矩陣,它刻畫了類與樣本總體之間的關系,其中矩陣的對角函數表示類相對於樣本總體的方差(即離差),而非對角元素表示類與樣本總體平均值的協方差(即相關或冗余)。因此,根據公式(3)可以知道,公式(3)是根據樣本和總體各自所屬的類別計算樣本和總體的協方差矩陣之和,從宏觀角度描述了所有類別和總體之間的離散冗余程度。同理,可以得出結論,公式(4)是分類內樣本與其所屬類別之間的協方差矩陣之和,描述了類別內樣本整體之間的離差(這裏描述的類別特征由類別內樣本的平均矩陣組成)。實際上從中可以看出,無論是類內樣本期望矩陣還是總體樣本期望矩陣都只是作為壹個媒介,類內和類間離差矩陣都是從宏觀的角度來描述類的。

LDA作為壹種分類算法,當然希望它劃分的類之間耦合度低,類內聚集度高,即類內離差矩陣中的值小,而類間離差矩陣中的值大,這樣分類效果好。

這裏我們介紹Fisher判別準則表達式: