PLS和正交偏最小二乘(OPLS)是監督模型。他們利用偏最小二乘回歸建立代謝物表達與樣本類別的關系模型,實現對樣本類別的預測。OPLS是壹種造型方法。相比之下,OPLS可以分別模擬相關因素和無關變量。雖然計算方法與PLS相同,但OPLS更能說明問題。
而且,當無監督(PCA)不能很好地區分組間的樣本時,PLS-DA可以實現有效的分離。此外,PLS-DA和OPLS-DA構建的分類預測模型可以進壹步用於識別更多的樣本類別,這是探索性PCA方法所不能做到的。
此外,PLS-DA和OPLS-DA構建的分類模型中的負荷圖可以用來衡量各代謝物組分對樣本分類和判別的影響強度和解釋能力,輔助篩選標誌物代謝物。# #示例解釋
不同桑樹品種的OPLS-DA負荷試驗
這些數據用於通過液相色譜-高分辨率質譜(LC-HRMS)研究年齡、體重指數(bmi)和性別對尿液中代謝物濃度的影響。該列表具體包括:
因為目的是識別給定數據集的特征,而不是對未知數據的分類進行建模和預測,所以這裏所有數據都作為訓練集來建立模型。
opls計算結果中的常見對象包括:
進行PLS統計建模時,壹般會同時給出四張圖片:
性別反應的PLS-DA模型
顯著性診斷(左上):隨機排列後實際和模擬模型的R2Y和Q2Y值散點圖。當模型的R2Y和Q2Y(散點)大於真實值(水平線)時,說明發生了過擬合2。
慣性柱形圖(右上):通過顯示累計解釋率來評價正交分量是否足夠。
離群點顯示(左下):通過scoreMN和loadingMN計算每個樣本在投影平面和正交平面的坐標,對差異較大的樣本進行標記。
x分數圖(右下):PLS-DA軸中每個樣本的坐標;R2X和R2Y的等效性如下所示,用於評估模型的良好性:
與其說是可視化方法,不如說是數據提取章節。
通過變量對投影的重要性(VIP),可以衡量每種代謝物組分含量對樣本分類和判別的影響強度和解釋力,輔助篩選標誌物代謝物(閾值通常設置為1)。
正交偏最小二乘法(OPLS)將觀測矩陣X的差分為兩部分:第壹部分代表與Y相關的差,第二部分代表與Y無關的差(正交和垂直),因此結果需要壹起討論;因為OPLS區分了不相關的變量數據,這使得模型更容易解釋。
此外,OPLS能更好地避免過擬合,預測性能優勢沒有得到明顯提升;因此,如果PLS-DA模型可以接受:“匯總”的四個圖的結果更好,仍然推薦PLS-DA。
OPLS後的數據提取與PLS和PCA略有不同,需要同時考慮得分矩陣和正交矩陣。
當機器學習應用於變量多於樣本的數據集時,過擬合是主要問題。之前的隨機數實驗表明,當變量個數超過樣本個數時,可以實現完美的PLS-DA分類。然而,當樣本數量超過觀察數量時,PLS可能會過度擬合。所以需要通過隨機排列標簽來檢驗模型的Q2Y值是否顯著。
1.bHLH3的異常表達破壞了類黃酮穩態網絡,導致桑椹色素組成的差異。議會第7,83 (2020)號決議。
2.特文諾特,E. A,魯,a,徐,y,埃贊,E. & amp通過實施單變量和opls統計分析的綜合工作流程,分析成人尿液代謝組隨年齡、體重指數和性別的變化。蛋白質組研究雜誌14,3322–3335(2015)。
3.泰韋諾特,E. A .,魯,a .,徐,y .,埃贊,E. & amp通過實施單變量和opls統計分析的綜合工作流程,分析成人尿液代謝組隨年齡、體重指數和性別的變化。14 , 3322–3335 (2015).