壹、什麽是可逆神經網絡?
對於某些問題,研究者建立了復雜的理論模型來實現從隱含參數到可測值的映射,這種映射稱為正向過程。逆過程是根據測量值得到隱式參數,這也是壹個需要解決的實際問題。但是逆向過程很難求解,因為正向過程中丟失了壹些關鍵信息。
如果直接用傳統的神經網絡來訓練逆過程,效果會受到限制,因為逆過程是壹對多的映射。神經網絡訓練的模型,最好的情況是識別最可能的解;最壞的情況是多個解的平均值。
INN有三個特點:(I)輸入到輸出的映射是雙射的,即它的逆存在;(ii)前向和後向映射都是有效的和可計算的;(iii)映射具有容易處理的雅可比行列式,因此概率可以通過變量公式顯式地轉換。
標準的NN直接訓練逆過程,但是需要壹個監督損失(SL)項來區分真實的X和預測的X(我們可以暫時把SL理解為確定的代價函數),Y->;X的這種壹對多映射極大地限制了傳統NN。INN只對正向過程使用SL,但由於X沒有確定的值,預測的X屬於無監督損失(USL),需要跟隨前面的P (X)。另外,勢變量z需要服從高斯分布,屬於USL。
因為在正向過程中會丟失壹些信息,所以引入了壹個額外的潛在輸出變量z,並對其進行訓練,以捕捉與X相關但不包含在y中的信息,此外,還需要訓練網絡根據高斯分布調整p(z)。也就是把p(x|y)調整成壹個確定的函數x = g(y,z),在滿足y的條件下把已知的分布p(z)變換到x空間。
二、客棧詳解
如果x∈R D,y∈R M,那麽由於正向過程中的信息損失,y的固有維數M壹定小於D,即使M可能大於D。
我們希望根據模型q(x|y)預測ρ(x | y);因此,引入了隱式變量z,q(x|y)用g(y,z;θ)表示如下:
相應地,它的正向過程也可以由f(x;θ)表示:
F和G的雙向訓練可以避免cGAN和貝葉斯神經網絡中的問題。因為INN要求f = g -1,所以兩邊的維度(內在維度和顯示維度)應該是壹樣的。所以要求變量z的維數k為d-m,如果導致m+k >;D,妳需要用M+K-D維的0向量來完成x向量。
結合上述所有定義,我們的網絡將q(x|y)表示為:
可逆神經網絡的基本構件是由真實NVP模型擴展的仿射耦合層。其工作原理是將輸入數據分為u 1和u 2兩部分,通過學習函數s i和t i(可以是任意復變函數,函數本身不需要可逆)進行變換,並以交替的方式耦合:
輸出是[v 1,v 2]的連接。表示為:
給定輸出,也可以獲得相反的過程:
表示為:
深度可逆網絡由壹系列上述構件組成。此外,這個基本架構還有兩個擴展:
INN減少了輸入域和輸出域的誤差,使得訓練更加有效。因此,INN交替執行向前和向後叠代,並在更新參數之前累積雙向梯度。
對於正向叠代,我們計算模型輸出y i = s(x i)與網絡預測f y (x i)之間的偏差,損失表示為L y (y i,f y (x i)),可以是任何監督損失,比如回歸問題中的平方誤差,或者分類問題中的交叉熵。
對於勢變量Z,我們計算模型輸出p(y = s(x)) = p(x)/|J s |的邊際分布與網絡輸出q(y = f y (x),z = f z (x)) = p(x)/|J yz |的乘積之間的偏差。其次,Y和Z是相互獨立的,不會兩次覆蓋相同的信息。L y和L z都是正向叠代過程中的損失。
L y和L z在理論上是充分的,但是在復雜的問題例子中y和z之間仍然存在少量的剩余依賴,導致q(x|y)與真實的p(x|y)存在偏差。為了避免這種情況,額外定義了輸入損耗L x,其中L x (p(x),q(x))表示p(x)與後向預測分布q(x) = p(y = f y (x)) p(z = f z (x))/|J x |。
L x和L z都是用最大平均誤差法MMD實現的。MMD是壹種基於核的方法,用於比較兩種只能通過樣本獲取的概率分布。本文采用以下方法來達到最佳效果:
三。INN相關實驗
這個實驗的正向過程是根據壹個點的二維坐標來判斷這個點的模式,反向過程是根據它的模式來標記它的二維坐標。培訓結果如下:
可以看出,如果只有正向訓練(ly,L z),已知關系會被捕獲,但在X空間的未填充區域有較大偏差(所以Setup1的效果較好,但Setup2和Setup3的效果較差)。但如果只有反向訓練(L x),會學習到正確的X分布,但會丟失已知信息。
用cGAN訓練需要更多的隱式變量和更復雜的結構,而cGAN和INN的區別不僅僅在於使用了不同的損失函數,這證明了INN優於cGAN。最後壹個dropout網絡只使用Y作為輸入,因為它沒有使用任何隱式變量,它丟失了Y不包含的所有信息。
分析隱式空間的結構,也就是理解模型如何利用給定y的Z,對於隱式空間中的每個坐標z i(本實驗中Z為二維變量),我們用[y,z i]作為逆過程的輸入,得到x i ',然後給點上色——色相取決於x i '在X空間中更接近的模式的顏色,亮度取決於x i '離那個模式的距離。
在醫學上,腫瘤會改變血氧飽和度,從而導致組織表面反射率的變化。多光譜相機可以測量組織表面的反射率;也可以根據包括氧飽和度、血液體積分數、散射強度、各向異性指數和組織厚度的模型進行模擬。但是,根據組織表面的反射率,很難得到重要的功能特征,因為不同的組織參數可能得到相同的組織反射率。也有直接對逆向過程建模的嘗試,但模型的預測效果並不理想。
在精度上,INN的地圖(海報最大值)法優於其他方法。如果不考慮L x損失,對精度影響不大;但是如果不考慮L y和L z,網絡就徹底失效了。給定y,INN對p(x|y)的預測結果如下:
橙色區域是INN預測的P(Xi | y);灰色區域是整個數據集的p(x)分布;虛線是測試集中與y相關的實際x值。
從以上結果也可以看出兩點:
這個例子我就不細說了,和醫學應用差不多,效果還是可以的: