多視點立體匹配(MVS)是計算機領域的壹個核心問題。多視圖立體匹配的重建可以被認為是拍攝給定場景的逆過程。在相機映射下,三維場景轉化為二維,而多視點立體匹配重建正好相反。從不同的視點拍攝圖像,還原真實的三維場景。
傳統方法使用人工設計的相似性度量和正則化方法計算場景的稠密對應(如歸壹化互相關和半全局匹配)。這些方法可以在非朗伯表面和沒有弱紋理區域的場景中取得良好的效果。然而,在弱紋理區域,人工設計的相似性指標變得不可靠,導致重建結果不完整。根據MVS數據集的排名,這些方法具有較高的準確率,但在重建方法的完整性方面還有很大的提升空間。
卷積神經網絡的最新發展激起了人們對完善立體匹配重建的熱情。從概念上講,基於學習的算法可以捕獲全局語義信息,例如基於高光和反射的先驗條件,並促進更魯棒的匹配。目前已經探索出了壹些兩視圖之間的立體匹配,用神經網絡代替了手工設計的相似性度量或正則化方法。這些方法表現出較好的效果,在立體匹配領域逐漸超越傳統方法。實際上,立體匹配任務完全適合CNN,因為圖像對已經被修改,所以立體匹配問題轉化為水平方向上的逐像素視差估計。
與雙目立體匹配不同,MVS的輸入是任意數量的視圖,這是深度學習方法需要解決的棘手問題。而且,只有少數作品意識到了這個問題。比如SurfaceNet預先重建顏色體素立方體,所有像素的顏色信息和相機參數形成壹個3D代價體,作為網絡的輸入。但由於3D巨大的內存消耗,SurfaceNet網絡規模難以提升:SurfaceNet采用“分而治之”的啟發式策略,場景的大規模重建需要較長的時間。