【目標檢測】論文推薦——基於深度神經網絡的目標檢測

原創:使用深度神經網絡的可擴展對象檢測-學術範式

最近，深度卷積神經網絡在包括ImageNet大規模視覺識別挑戰（ILVRC-2012）在內的許多圖像識別基準上取得了最先進的性能。定位子任務中的獲勝模型是壹個網絡，它預測圖像中每個對象類別的單個邊界框和置信度得分。該模型捕獲對象周圍的整個圖像上下文，但是如果不天真地復制每個實例的輸出編號，就不可能處理圖像中同壹對象的多個實例。本文提出了壹種重要的啟發式神經網絡檢測模型，該模型預測壹組與類別無關的邊界框，每個框都有壹個分數，對應於它包含任何感興趣對象的可能性。該模型自然地為每個類處理可變數量的實例，並允許在網絡的最高級別進行跨類泛化。

目標檢測是計算機視覺的基本任務之壹。解決這個問題的壹個常見示例是訓練在子圖像上操作的對象檢測器，並在所有地方和尺度上以詳細的方式應用這些檢測器。該示例已成功應用於可變形零件模型（DPM）進行差分訓練後，以實現檢查任務的最新結果。對所有可能位置和比例的窮盡搜索帶來了計算上的挑戰。隨著類別數量的增加，這壹挑戰變得更加困難，因為大多數方法為每個類別訓練壹個單獨的檢測器。為了解決這個問題，已經提出了許多方法，從檢測器級聯到使用分割來提出少量對象假設。

有許多關於目標檢測的文獻。在這壹節中，我們將重點介紹類不可知論的使用以及解決可伸縮性的方法。

許多提出的檢測方法都基於基於組件的模型。最近，由於差異化學習和精心設計的特點，實現了令人印象深刻的性能。然而，這些方法依賴於零件模板在多個比例上的詳細應用，這非常昂貴。此外，它們在類的數量上是可擴展的，這對於像ImageNet這樣的現代數據集來說是壹個挑戰。

為了解決前壹個問題，Lampert等人使用分支綁定策略來避免計算所有可能的對象位置。為了解決後壹個問題，Song等人使用了壹個由所有對象類共享的低維組件庫。基於哈希算法的零件檢測也取得了良好的效果。

另壹種與我們的工作更接近的工作是基於這樣的想法:對象可以在不知道它們的類的情況下被本地化。其中壹些方法是基於自底向上的無類分割【9】。以這種方式獲得的剪輯可以通過自上而下的反饋進行評分。基於同樣的動機，阿利克夏等人使用了壹種廉價的分類器來對物體是否應該是物體進行分級，並以這種方式減少了後續檢測步驟中的位置數量。這些方法可以視為壹個多層模型，以分割為第壹層，分割和分類為後續層。盡管它們編碼了經過驗證的感知原則，但我們將表明，通過更深入的模型，充分學習可以帶來更好的結果。

最後，我們利用了深度學習的最新進展，最著名的是Krizhevsky和其他人的工作。我們將他們的包圍盒回歸檢測方法擴展到以可擴展的方式處理多個對象的情況。然而，Szegedy等人已經將基於dnn的回歸應用於對象掩碼。最後壹種方法實現了最先進的檢測性能，但由於單個掩碼回歸的成本，它無法擴展到多個類別。

我們的目標是通過預測壹組表示潛在對象的包圍盒來實現與類別無關的可擴展對象檢測。更準確地說，我們使用深度神經網絡（DNN），它輸出固定數量的邊界框。此外，它為每個框輸出壹個分數，指示該框包含對象的網絡信任。

為了形式化上述思想，我們將i-thobject框及其相關置信度編碼為最後壹個網絡層的節點值:

邊界框:我們將每個框的左上角和右下角的坐標編碼成四個節點值，可以寫成vectorli∈R4。這些坐標是標準化的W. R. T .圖像尺寸，以實現圖像絕對尺寸的不變性。每個歸壹化坐標由最後壹層的線性變換生成。

置信度:包含對象的盒子的置信度得分被編碼為單個節點值ci∈【0，1】。該值由最後壹個隱藏層的線性變換生成，後面是壹個sigmoid。

我們可以組合邊界框位置sli，i∈{1，...k}成線性層。同樣，我們可以將所有置信區間ci，i∈{1，…K}作為S形層的輸出。兩個輸出層都連接到最後壹個隱藏層。

在推理過程中，我們的算法生成壹個知識包圍盒。在我們的實驗中，我們使用ek = 100和K= 200。如果有必要，我們可以在推理中使用置信度得分和非最大抑制來獲得較少數量的高置信度幀。這些盒子應該代表物體。因此，它們可以由後續的分類器進行分類，以實現目標檢測。由於盒子的數量非常少，我們可以提供壹個強大的分類器。在我們的實驗中，我們使用另壹個dnn進行分類。

我們訓練壹個DNN來預測每個訓練圖像的邊界框及其置信度得分，以使得分最高的框與圖像的groundtruth對象框很好地匹配。假設對於特定的訓練示例，對象標記為boundingboxesgj，j∈{1，…，M}。實際上，預詞典的數量遠遠大於基礎詞典。因此，我們嘗試只優化與地面實況最匹配的預測幀子集。我們優化他們的位置以提高他們的匹配度並最大限度地增強他們的信心。同時，我們最小化殘差預測的置信度，殘差預測被認為無法很好地定位真實對象。為了實現上述目標，我們為每個訓練示例制定了壹個分配問題。Wexij∈{0，1}表示賦值:xij= 1，如果將第I個預測賦值給第j個真實對象。這項任務的目標可以表述如下

其中，我們使用標準化邊界框坐標之間的el2距離來量化邊界框之間的差異。此外，我們希望根據分配x優化盒子的可信度。最大化給定預測的置信度可以表示為

？最終損失目標結合了匹配損失和信心損失。

受方程1約束。α平衡不同損失條款的貢獻。

對於每個訓練示例，我們解決了對真實盒子的最佳分配x*的預測。

約束執行分配解決方案。這是二分匹配的變體，並且是多項式復雜度匹配。在我們的應用程序中，匹配非常便宜-每幅圖像中標記的對象數量不到十幾個，並且在大多數情況下只有幾個對象被標記。然後，通過反向傳播優化網絡參數。例如，反向傳播算法的壹階導數計算W、R、T、L和c。

雖然上述定義的損失在原則上是足夠的，但三次修訂使更快地實現更好的準確性成為可能。第壹個修改是對地面上的真實位置進行聚類並找到這樣的聚類/質心，我們可以將其用作每個預測位置的先驗。因此，鼓勵學習算法學習每個預測位置的先驗殘差。

第二個修改涉及在匹配過程中使用這些先驗:不是將n個地面真相位置與k個預測匹配，而是在k個先驗和地面真相之間找到最佳匹配。壹旦匹配完成，將像以前壹樣計算目標的置信度。此外，位置預測的損失是不變的:對於任何壹對匹配的（目標，預測的）位置，損失被定義為地面實況與匹配先驗對應的坐標之間的差異。我們將先驗匹配稱為先驗匹配，並假設它促進了預測的多樣化。

？應該註意的是，盡管我們以獨立於類的方式定義我們的方法，但我們可以應用它來預測特定類的對象框。為此，我們只需要在類的邊界上訓練我們的模型。此外，我們可以預測每個類的kbox。不幸的是，該模型中的參數數量將隨著類的數量線性增加。此外，在典型設置中，給定類別中的對象數量相對較少，並且這些參數中的大多數將看到具有很少相應梯度貢獻的訓練示例。因此，我們認為我們的兩步過程-首先定位，然後識別-是壹個更好的選擇，因為它允許使用壹些參數來利用同壹圖像中多種對象類型的數據。

我們使用的本地化和分類模型的網絡架構與【10】相同。我們使用Adagrad控制學習率衰減，小批量128，並使用同壹網絡的多個副本進行並行分布式訓練，從而實現更快的收斂。如前所述，我們在定位損失中使用先驗——這些是通過使用訓練集的平均值計算的。我們還使用α = 0.3來平衡局部化和置信度損失。定位器可以輸出種植區域外的坐標進行推斷。坐標被映射並截斷到最後壹個圖像區域。此外，通過非最大值抑制對盒子進行修剪，Jaccard的相似度閾值為0.5。然後，我們的第二個模型將每個邊界框分類為感興趣的對象或“背景”。為了訓練我們的定位器網絡，我們從訓練集中生成了大約3000萬張圖像，並對訓練集中的每張圖像應用了以下步驟。最後，樣本被幹擾了。為了訓練我們的本地化網絡，我們通過對訓練集中的每張圖像應用以下步驟，從訓練集中生成了大約3000萬張圖像。對於每幅圖像，我們生成相同數量的正方形樣本，使得樣本總數約為654.38+000萬。對於每個圖像，將樣本填充在桶中，以便對於0-5%、5-15%、15-50%和50-100%範圍內的每個比例，都有相同數量的樣本，並且邊界框覆蓋的比例在給定範圍內。訓練集和大部分超參數的選擇是基於過去使用非公開數據集的經驗。在接下來的實驗中，我們沒有探索任何非標準的數據生成或正則化選項。在所有實驗中，所有超參數都是通過訓練集獲得的。

Pascal視覺對象類（VOC）挑戰是最常用的對象檢測算法基準。它主要由復雜的場景圖像組成，其中包含20個不同對象類別的邊界框。在我們的評估中，我們重點關註2007年的VOC，並為此發布了壹個測試集。我們通過訓練VOC 2012展示了結果，其中包括大約。11000張圖片。我們訓練了壹個具有100幀的定位器和壹個基於深度網絡的分類器。

我們在由654.38+000萬作物組成的數據集上訓練分類器，數據集的重疊對象至少為0.5 jaccard重疊相似度。這些作物被標記為20種揮發性有機化合物對象類別之壹。？2000萬個負裁剪與任何對象框最多有0.2個Jaccard相似性。這些作物被標上壹個特殊的“背景”類別。架構和超參數的選擇如下。

在第壹輪中，定位器模型應用於圖像中最大-最小的中央方形裁剪。將作物尺寸調整為網絡輸入尺寸220×220。我們可以通過這個網絡壹次獲得數百個候選日期框架。在重疊閾值為0.5的非最大抑制後，保留得分最高的前10個檢測項目，並由網絡通過21分類器模型進行分類。最終檢測得分是給定框的定位得分乘以分類器在作物周圍最大正方形區域上評估的得分的乘積。這些分數被評估並用於計算精確的回憶曲線。

首先，我們分析了定位器在隔離狀態下的性能。我們給出由Pascal檢測標準定義的檢測到的對象的數量，與生成的邊界框的數量進行比較。在圖1中，我們顯示了使用VOC2012進行訓練的結果。此外，我們通過使用圖像的最大中心區域（最大中心方形裁剪）作為輸入並使用兩個第二比例來給出結果:最大中心區域的第二比例（選擇3×3窗口的大小為圖像大小的60%）。

如我們所見，當使用10個邊界框的預算時，我們可以使用第壹個模型定位45.3%的對象，使用第二個模型定位48%的對象。這顯示了比其他報告結果更好的性能，例如，對象度算法達到42%【1】。此外，這張圖表還顯示了以不同分辨率觀察圖像的重要性。雖然我們的算法通過使用最大的中心裁剪獲得了大量的對象，但是當使用更高分辨率的圖像裁剪時，我們獲得了額外的改進。此外，如上所述，我們使用21向分類器對生成的包圍盒進行分類。表1列出了VOC 2007的平均準確度（APs）。平均AP達到0.29，相當於高級水平。請註意，我們的運行時復雜性非常低-我們只使用了top10盒子。圖2和圖3分別顯示了示例檢測和全精度召回曲線。值得註意的是，視覺檢測是通過僅使用最大中心正方形圖像裁剪來獲得的，即使用整個圖像。然而，我們設法得到了相對較小的物體，例如第二排和第二排的船，第三排和第三排的羊。

在這項工作中，我們提出了壹種新的方法來定位圖像中的對象，該方法可以預測多個包圍盒的時間。該方法使用深度卷積神經網絡作為基本的特征提取和學習模型。它設置了壹個多框定位成本，可以使用可變數量的groundtruth位置。在“壹個類，壹個盒子”方法的情況下，1000個盒子受到非最大值抑制，使用與給定圖像中感興趣的DeepMulti-Box方法相同的標準，並學習在未看到的圖像中預測這些位置。

我們給出了兩個具有挑戰性的基準測試VOC2007和ILSVRC-2012的結果。在這兩個基準上，提出的方法是有競爭力的。此外，該方法可以很好地預測後續分類器將檢測到的位置。我們的結果表明，deepmultibox的方法是可擴展的，甚至可以在兩個數據集之間進行推廣，從而可以預測感興趣的位置，甚至沒有針對它的訓練類別。此外，它可以捕捉同壹類物體的許多情況，這是旨在更好地理解圖像的算法的重要特征。

未來，我們希望將位置和識別路徑折疊到單個網絡中，這樣我們就可以通過網絡壹次性前饋提取位置和標簽信息。即使在當前狀態下，雙通道過程（本地化網絡後接分類網絡）將產生5-10次網絡評估，每次評估的速度約為1 CPU-sec（現代機器）。重要的是，這個數字與要識別的類的數量不是線性相關的，這使得所提出的方法與類似於dpm的方法相比非常有競爭力。