當前位置:成語大全網 - 漢語詞典 - 三維重建(2):多角度立體視覺技術基礎介紹(2)

三維重建(2):多角度立體視覺技術基礎介紹(2)

在上壹篇文章中,我簡單介紹了多角度立體視覺的過程。

通俗點就是先拍照,然後計算每張照片的相機參數,再從這些照片和參數中重建照片中場景的三維幾何結構,最後對重建結果進行微調。

在本文中,我介紹前兩部分:1。如何獲得圖像;2.相機投影模型。

在多視點立體(MVS)場景中,我們通常在三種情況下獲取照片:

壹般的技術是先在實驗室玩(因為實驗室的光照條件是完全可控的),然後在室外小範圍嘗試,最後在大規模數據上測試。這也符合壹般的科學認識和探索過程。早期的MVS技術也是如此。

這些技術從實驗室招數到實際運用主要得益於兩點:1。硬件升級;2.“運動到結構”算法的改進。

這裏“運動到結構”是我的直譯,比較簡單粗暴。英文原文是Sturcture from Motion,縮寫為SfM。

我先說第壹點,就是硬件上的提升。其實這是大家有目共睹的。現在內存已經輕松達到128G,很多CPU都是6核且每個核都是雙線程,硬盤基本都是4T以上。再來說說手機和相機。手機在這10年裏被翻了個底朝天。10年以前,諾基亞6120C還在使用。現在基本都是用最新版的iphone。我不需要說區別。相機在這方面的提升也是很大的,首先是因為傳感器質量的提升,像素尺寸有所提升,另外因為存儲卡容量的提升,存儲更加方便。其實這些硬件升級比起顯卡上的升級簡直是小菜壹碟。從12開始,英偉達公司不僅滿足了深度學習熱潮的需求,也為深度學習熱潮做出了很大貢獻。難怪NVIDIA的老板(他是臺灣省人,和我老板的壹個朋友關系很好)在計算機視覺的峰會上總是對我們微笑。估計從心底裏,我們也是給英偉達帶分紅不拿錢的業務員。

這些硬件的改進使得SfM技術和MVS技術可以輕松處理數百萬幅圖像,從而實現城市群尺度,甚至全國尺度和全球尺度的三維重建。

在三維重建技術這方面,研究人員已經努力了很多年,但直到最近這種實用技術才能應用於大規模工業領域。這得益於兩種技術的發展,壹種是SfM技術,另壹種是非常實用的同步定位與地圖繪制(SLAM)技術。SLAM技術的應用範圍很廣,比如掃地機器人使用的SLAM技術。

原相機型號為針孔相機,維基百科對針孔相機的介紹如下:

要想深入研究針孔攝像機模型,需要了解幾個關鍵的坐標系:世界坐標系W、攝像機坐標系C、圖像坐標系I、傳感器坐標系s,這四個坐標系雖然不同,但是可以轉換。實際物體在世界坐標系W中,假設這個物體上有壹個點x-W,那麽這個點x-W在攝像機坐標系C中的位置x-C就可以通過W到C的變換得到,同樣,我們也可以得到x-W在圖像坐標系I上的位置x-I和在傳感器坐標系S上的位置x-S。

下圖是壹個簡單的針孔攝像頭模型。

對於單相機成像系統,我們壹般認為世界坐標系W和相機坐標系C是相同的,即在這兩個系統中,物體上的點X在W和C上的位置是相同的,即X-W = X-C,但對於多相機成像系統,我們認為W與每個Ci是不同的(Ci是第壹個相機成像系統)。

當然,對於廣角相機來說,世界坐標系和相機坐標系也是不同的。例如,如下圖:

對於上圖中的左上角,由於廣角相機看到的範圍較大,所以圖像的每壹部分都會失真,比如中間部分放大,周圍部分縮小。那麽我們在還原的時候,會把中間部分按比例縮小,同時把周圍放大,從而得到圖像中場景的正常透視,也就是非廣角相機拍攝的畫面。

相機的另壹個問題,滾動快門效應,與快門速度和相機傳感器的存儲模式有關。壹般傳感器是逐行存儲入射光所包含的場景信息,但如果快門太快,那麽上壹行像素和下壹行像素存儲的信息就不匹配。比如妳微笑的那壹刻,上面壹行像素存儲的是妳的嘴唇,而下面壹行像素捕捉的是妳的微笑。如果這個現象不是特別直觀,可以看這個鏈接的動畫:/2017/06/30/rolling-shutter-effect-works/。

PS。從這篇文章開始,我換了壹本書研究3D重建。這個多視角立體:教程有點亂。朋友推薦我學習基督教W?由hler撰寫的《3D計算機視覺:有效的方法和應用》壹書。希望用通俗易懂的語言給大家解釋這本書。