將圖像分為語義像素級,並通過實例對分割出的對象進壹步分類。
基於圖像的灰度特性計算壹個或多個灰度閾值,並將圖像中每個像素的灰度值與閾值進行比較。最後,根據比較結果將像素分類到適當的類別中。
確定求解最佳灰度閾值的準則函數。閾值法特別適用於目標和背景占據不同灰度範圍的圖形。
值得壹提的是,這種方法也可用於特征點檢測。
直接找區域。有兩種基本形式:壹種是區域生長,從單個像素開始,逐漸合並形成所需的分割區域;另壹種是從全局出發,逐步切入到需要的細分區域。
基於邊緣檢測的圖像分割算法試圖通過檢測包含不同區域的邊緣來解決分割問題。可以說是人們最早想到,研究最多的方法之壹。通常,不同區域邊界上的像素灰度值變化劇烈。如果用傅裏葉變換把圖像從空間域變換到頻率域,邊緣對應的是高頻部分,這是壹種非常簡單的邊緣檢測算法。
常規卷積
常規卷積+剩余解梯度消失,網絡變深。
高效神經網絡
ResNet-38
全分辨率殘差網絡(FRRN)
阿達普尼
從目標檢測發展而來(R-CNN,快速R-CNN)
在快速R-CNN結構的基礎上,增加了掩模預測分支,改進了感興趣區域池,提出了感興趣區域對齊。
評估函數只對用於目標檢測的候選框進行評分,而不劃分模板。
(1)ReSeg模型FCN的改進
FCN的不足:沒有考慮局部或全局上下文依賴,這在語義分割中非常有用。因此,在ReSeg中,作者使用RNN來檢索上下文信息,作為分割基礎的壹部分。
卷積神經網絡在采樣時會丟失壹些細節,從而得到更多的特征值。但這個過程是不可逆的,有時會導致後期操作時圖像分辨率低、細節丟失等問題。因此,我們不能通過上采樣來完成某種程度上的缺失信息,從而得到更準確的分割邊界。
卷積後,執行上采樣以獲得片段圖。
優勢:
FCN在像素級對圖像進行分類,從而解決了語義級的圖像分割問題。
FCN可以接受任何大小的輸入圖像,並且可以保留原始輸入圖像中的空間信息。
缺點:
由於上采樣,獲得的結果是模糊和平滑的,並且對圖像中的細節不敏感;
將每個像素單獨分類,沒有充分考慮像素之間的關系,缺乏空間壹致性。
在深度卷積神經網絡中恢復降低的分辨率,從而獲得更多的上下文信息。
DeepLab是深度卷積神經網絡和概率圖模型相結合的方法,應用於語義分割的任務,目的是逐像素分類。其先進性體現在DenseCRFs(概率圖模型)和DCNN的結合上。將每個像素視為壹個CRF節點,利用遠程依賴和CRF推理直接優化DCNN的損失函數。
在圖像分割領域,FCN的壹個眾所周知的操作是先平滑後填充,即先卷起線條再池化,從而在縮小圖像尺寸的同時增大感受野,但在縮小圖像尺寸(卷積)再增大尺寸(上采樣)的過程中必然會丟失壹些信息,所以這裏有改進的空間。
DeepLab提出孔洞卷積來解決這個問題。
傳統的圖像分割
交叉熵損失
焦損解決了難和難樣品的不平衡
(2)醫學圖像分割
骰子損失(這個損失函數有背景,直接優化性能指標,涉及到我的另壹個話題,非凸優化)
IOU(常用作評估指標)
在以上基本損失的基礎上,還有各種改進。
因為相鄰像素與相應感受野中的圖像信息過於相似,如果相鄰像素屬於所需分割區域的內部,這種“相似性”是有益的,但是如果相鄰像素正好在所需分割區域的邊界上,這種“相似性”是有害的。
語境特征很常見。實際上,上下文大概理解為圖像中的每壹個像素都不能孤立存在,壹個像素必須與其周圍的像素有壹定的關系。大量的像素相互連接產生圖像中的各種對象,所以上下文特征是指像素和周圍像素之間的某種關系。
1.給網絡輸出的分段邊界加上額外的損耗,或者讓網絡建模,分別學習邊界的特征和區域內部的特征。其本質思想是讓網絡同時做兩項工作:分割和邊緣檢測。此外,提高輸入圖像的輸入分辨率和中間層特征圖的分辨率也是簡單有效的。
2.利用圖像二維空間的損失或采樣的動態加權,解決同壹幅圖像中不同語義的像素個數不均勻、學習難度不同的問題。
3.使用半監督或弱監督學習來減少昂貴的標記問題。使用多個有噪聲的樣本或標簽的特征來構造虛擬的幹凈的虛擬樣本或標簽的特征,以降低標簽的噪聲。
4.使用合理的上下文建模機制幫助網絡猜測遮擋部分的語義信息。
5.在網絡中的不同圖像之間建立損失或特征交互模塊。