當前位置:成語大全網 - 新華字典 - 概述:廣義非分布檢測(異常檢測、開集識別、OOD檢測)

概述:廣義非分布檢測(異常檢測、開集識別、OOD檢測)

廣義分布外檢測:壹項調查楊景康,周開陽,,/京抗50/OODSurvey

非分布檢測對於保證機器學習系統的可靠性和安全性非常重要。比如在自動駕駛中,當遇到壹個它從未見過的非常規情況或物體,無法給出安全決策時,我們需要駕駛系統給出警告,把控制權交給人類。自從2017提出以來,研究者越來越關註這個問題,各種解決方案層出不窮,包括:基於分類的、基於密度的、基於重構的、基於距離的方法。同時,其他幾個問題在動機和方法上都與分布外檢測密切相關。這些問題包括:異常檢測、新奇檢測、開集識別(OSR)和離群點檢測(OD)。雖然它們的定義和問題不同,但這些問題往往會混淆讀者和從業者,從而導致在壹些現有的工作中誤用這些術語。實際上,AD、ND、OSR、OOD、OD這五個問題都可以統壹在分布外檢測的廣義框架下,都可以看作分布外檢測的特例或子任務,很容易區分開來。本文通過總結最新的技術發展對這五個問題進行了深入的回顧,並總結了該領域面臨的挑戰和潛在的研究方向。

可信的視覺識別系統不僅能在已知情況下給出準確的預測,還能檢測出未知樣本並丟棄或交給用戶進行安全處理。

例如,壹個訓練有素的食物分類器應該丟棄用戶自拍等非食物圖片,而不是武斷地確定它們屬於壹個已知的食物類別。在安全要求較高的應用中,比如無人駕駛,系統在遇到訓練中沒有見過的異常情況或物體時,應該會發出警告,並給予駕駛員控制。

現有的機器學習模型大多基於封閉世界假設進行訓練,即測試集和訓練集獨立同分布,或者都來自同壹個內分布。但是,當模型部署在開放的場景中時,測試樣本的分布可能與定型集的分布不同,因此需要謹慎對待。分布的變化可能是語義漂移(比如OOD樣本取自其他類別)和共變漂移(也叫輸入漂移,比如OOD樣本取自其他領域)。

只考慮語義漂移和共變漂移。

異常檢測的目的是在測試階段檢測異常樣本。“異常”是指偏離預定義的“正常”。這種偏離可能是由協變漂移或語義漂移引起的。異常檢測可以分為兩個子任務:

與異常檢測的區別:1)動機上,與異常檢測不同,新型檢測不把從未被視為錯誤或有害的“新”樣本,而是會珍惜這些新樣本,作為後續模型的學習資源;2)新類別檢測的主要關註點是語義漂移;3)在新類別檢測中,不限制ID樣本屬於單壹類別,訓練集中可以有多個類別的樣本。

新類別檢測的目的是檢測不屬於任何訓練類別的測試樣本。檢測到的新樣本通常是為未來程序的構建做準備的,比如對當前模型進行更具體的分析和增量學習。根據訓練類別數量的不同,新類別檢測分為:

OSR需要壹個多類分類器同時對訓練類的測試樣本(ID)進行1)精確分類;2)識別不屬於訓練類別的樣本(OOD)。

OSR =多級ND

該模型需要剔除標簽遷移的樣本,以保證預測的可靠性和安全性。

非分布檢測的目的是檢測測試樣本。

當壹個樣本明顯不同於其他樣本時,它被認為是“異常值”。在異常檢測、新類檢測、開集識別、分布外檢測的問題設置中,都有這個訓練-測試的過程,需要挑出不屬於訓練分布的樣本。

而離群點檢測沒有“訓練分布”和“檢驗分布”,而是直接在所有可見樣本中挑出那些與其他顯著不同的樣本。

給定同構的ID數據,最直接的方法是1)基於密度的方法,估計ID的密度,拒絕那些偏離估計OOD的測試樣本。其他方法包括:2)根據圖像重建的質量來識別異常樣本,3)直接學習判定邊界來區分ID和OOD樣本,4)基於距離的方法,以及5)元學習方法。

基於密度的方法(Density-based method)試圖對正態數據(ID數據)的分布進行建模,這是基於壹個實際的假設:異常測試樣本在估計密度模型的下遊具有較低的概率值,而正態樣本具有較高的概率值。

參數密度估計假設1d樣本的密度可以表示為定義的分布。壹種方法是在訓練數據上擬合多元高斯分布,並測量測試樣本和訓練樣本的期望之間的Mahalanobis距離(協方差距離),計算兩個未知樣本集之間的相似性。不同於歐氏距離,它考慮了各種特征之間的關系)。其他工作采用了更復雜的假設,即訓練分布是混合高斯分布或泊松分布。

非參數密度估計考慮了更現實的情況:預定義的分布不能模擬真實的分布。訓練分布可以簡單地用直方圖來模擬。核密度估計(KDE)進壹步使用核函數作為離散直方圖的連續替代,可以靈活地使用點權重和帶寬來控制估計的分布。

雖然經典的密度估計方法在很多任務中取得了很好的AD性能,但是它們更適合低維任務。

對於計算機視覺任務中的高維數據,這些方法的計算量和可擴展性受到影響。為了減輕維數災難,壹些方法通過特征工程[277],[278]降低維數。

通過從潛在嵌入中重構輸入,自編碼器可以學習未標記數據的有效表達。變分自編碼器將輸入圖像編碼成壹個服從高斯分布的勢矢量。學習的潛在嵌入可以被視為輸入的低維表示。傳統的密度估計方法可以應用於這些深度表示。

生成對抗網絡由生成網絡和判別網絡組成,兩者在零和博弈中相互競爭。通常,生成網絡學習從潛在空間到所研究的數據分布的映射,而判別網絡試圖將生成器生成的數據與真實數據區分開。然而,與基於自編碼器/變分自編碼器的範例不同,編碼器的缺失使得GAN難以直接找到輸入圖片的對應嵌入。為了解決這個問題,ADGAN [90]在潛在空間中搜索給定樣本的良好表示。如果找不到這樣的代表,樣本被視為異常。這種方法非常昂貴。

歸壹化流描述了概率分布通過壹系列可逆映射的轉換過程。通過重復應用變量變化規則,初始密度“流經”壹系列可逆映射。因此,使用規範化流的方法可以直接估計輸入空間的可能性。基於流的方法具有優雅的數學表達式,但它們也僅對低維特征敏感。如果不進行降維,基於流的方法計算成本高。

除了通過生成模型獲得可視化嵌入外,壹些方法主要通過擴展模型容量來增加提取特征的表示能力,這可能使法線(ID)更準確地被表征為密度估計。這些策略包括數據增強、對抗訓練、提煉、損失函數增強以及表面/局部特征的使用。

基於能量的方法使用壹個標量能量分數來表示變量的概率密度,它采用非標準化的負對數概率。

然而,與標準的深度學習模型相比,訓練基於能量的方法是昂貴的,因為馬爾可夫鏈蒙特卡羅方法(MCMC,通過概率空間中的隨機采樣來估計興趣參數的後驗分布)的采樣和估計需要積分運算。

為了解決這個問題,研究人員提出了分數匹配和隨機梯度等方法來支持高效訓練。

現有的工作還探索了使用頻域分析方法進行異常檢測。人類通過低頻信息理解圖片,而CNN更多依靠高頻信息做出決策。人們提出了CNN核平滑、頻譜引導數據增強等方法來抑制高頻成分的影響。壹些工作已經發現檢測低頻分量上的反擊也是困難的,因此提出

基於頻率的方法側重於感覺異常檢測(尤其是在對抗性樣本上),可能不適合語義異常檢測。

基於重構的方法的核心是在ID數據上訓練的編解碼器框架通常對ID和OOD樣本返回不同的效果。

模型性能的差異可以作為異常檢測的指標。模型性能的差異可以用特征空間的差異或重構誤差來衡量。

系數重構假設每壹個正常樣本都可以由有限個基本函數精確重構,而異常數據的重構代價更高,因此產生了稠密表示。稀疏表示的典型技術包括基於L1正則化的核PCA和低階嵌入式網絡。

重構誤差方法依賴於這樣的假設,即當輸入是正常測試樣本時,基於正常數據訓練的重構模型將輸出更高質量的結果。深度重建模型(包括自編碼器AE、變分自編碼器VAE、生成對抗網絡GAN和U-Net等。)都可以作為這類方法的主幹。

除了結合AE/VAE和重建誤差的標準實踐之外,其他方法使用更精細的策略,例如通過記憶的規律性來重建模型,調整模型架構,以及部分/有條件重建。

在半監督異常檢測中,CoRA分別對ID樣本和OOD樣本進行訓練,得到兩個自編碼器。這兩個自編碼器的重構誤差被用作異常檢測的指標。

GAN中的鑒別器本質上是通過計算重構誤差來實現異常檢測的。此外,GAN變體,如去噪GAN和類別條件GAN,通過增加重建的難度獲得了更好的性能。壹些方法利用重建圖像在下遊任務中的性能來進壹步放大異常樣本的重建誤差。集成還可以優化模型性能。

異常檢測和單類新類檢測通常被形式化為無監督學習問題,所有ID樣本被視為壹個類。

283做了完全監控的異常檢測。

在半監督異常檢測中,未標記數據用於模型訓練。

PU學習就是為了解決這個問題而提出的。

自我監控方法

單個類別分類直接學習壹個決策邊界。

尚未完成

* * *性別:ID樣本有多個類別(訓練類別)。

區別:開集識別也需要對ID樣本進行準確分類,而新類檢測只需要得到兩個區分ID/OOD的分類器。

因為開集識別和多類新類檢測的訓練類別很多,所以大多數方法都是基於分類的。其他方法包括基於身份的原型和基於重建。很少有模型是基於密度的。

來解決

開集識別和多類新類檢測都關註ID樣本包含多個類的情況。在分類問題中,壹般采用壹次性編碼對類別信息進行編碼。但是,獨特的熱編碼忽略了類別之間的內在聯系。比如“狗”——“貓”和“狗”——“車”之間的距離相同,顯然是不合理的。考慮到這壹點,壹些工作試圖通過使用新類別的標簽空間中的信息來解決這個新類別檢測問題。重新分配壹個大的語義空間,形成已知類別的層次分類。

基於標簽組織重置的自頂向下分類策略和分組softmax訓練被證明是有效的。壹組任務應該使用詞向量嵌入來自動構建標簽空間。169中的稀疏熱標簽被幾組來自不同NLP模型的密集詞向量代替,形成多個回歸頭進行魯棒訓練。

測試時,標簽(與所有不同頭給出的嵌入向量距離最小的標簽)作為預測結果輸出。

如果最小距離超過閾值,則樣本被分類為“新的”。最近的工作進壹步使用語言-圖片預訓練模型輸出的特征來更好地檢測新類別,圖片編碼空間也包含來自標簽空間的豐富特征。)

基於距離的開集識別方法需要“原型”來實現類條件。保持ID樣本的分類性能。

對分類器提取的視覺特征執行基於分類的聚類和原型化操作。

可以通過計算樣本和聚類之間的距離來識別OOD樣本。

壹些方法還引入對比學習來學習已知類別的更接近的聚類,從而擴大ID和OOD樣本之間的距離。

CROSR177通過拼接分類器和重構模型給出的視覺嵌入進行距離計算,在擴展的特征空間中獲得增強的特征。除了使用分類器給出的特征,GMVAE178還使用重建的VAE來提取特征,並將訓練集的嵌入建模為多中心混合高斯分布,用於後續的基於距離的操作。最近鄰分類器也適用於開集識別。通過存儲訓練樣本,最近鄰距離比用於識別測試中的未知樣本。

基於重構的方法希望ID和OOD樣本在重構時表現不同。這種差異可以在重構圖像的潛在特征空間或像素空間中捕獲。

通過將已知類別的圖片轉換成稀疏表示,開集樣本可以被識別,因為它們相對密集。稀疏編碼的技術包括稀疏集中指數180和核零空間方法181,182。

固定在ID樣本上的多分類視覺編碼器用於維持對ID樣本的分類性能。C2AE以表情為向量訓練壹個解碼器,利用極值理論估計重構的圖片來區分未知類別。在接下來的工作中,使用條件高斯分布使不同的潛在特征逼近類別高斯模型,從而對已知類別樣本進行分類,同時拒絕未知類別樣本。其他方法生成反事實圖片,以幫助模型更加關註語義。對策防186也是用這種思路來增強模型的魯棒性。

後處理檢測法的優點是不需要修改訓練程序和目標就可以方便地應用。這對於實際生產環境中的OOD檢測方法非常重要。早期的ODIN是壹種後處理方法,使用溫度縮放和輸入擾動來放大ID/OOD差異。在該方法中,足夠大的溫度具有很強的平滑作用,可以將softmax值轉換到logit空間(),從而有效區分ID和OOD樣本。註意,這種方法不同於置信校準,置信校準采用更溫和的測試

校準更註重表達ID樣本真實的正確概率。

ODIN的評分最大化了ID和OOD樣本的差異,從預測置信度的角度來看可能不再有意義。

基於這種觀點,最近189提出用能量評分做OOD檢測。該方法不需要超參數,其性能相當於甚至優於ODIN。energy函數通過方便的logsumexp運算符將logit輸出映射到壹個標量。具有相對較低能量值的測試樣品被認為是ID,而它是OOD。

55進壹步提出了JointEnergy評分。

為OOD檢測定制的基於置信度的方法,可以通過設計置信度估計分支和類別數據增強(結合遺漏策略、對抗訓練、更強的數據增強、不確定性建模和利用理想深度的特性)來實現。

特別地,為了增強對協變偏差的敏感性,壹些方法關註於神經網絡中間層的隱藏表示。廣義ODIN以DeConf-C為訓練目標對ODIN進行擴展,選擇ID數據上的擾動尺度作為超參數。

因為ODIN需要模型訓練過程,所以不歸為後處理方法。

為了獲得更好的用於密度估計的隱藏層特征,引入了分層馬氏距離和Gram矩陣技術。

OOD檢測的另壹個分支使用收集的OOD樣本集(離群樣本集)來幫助模型在訓練中學習ID和OOD之間的差異。

壹般來說,具有異常值暴露的OOD檢測可以實現明顯更好的性能。然而,其性能明顯受到給定OOD樣本和真實OOD樣本之間相關性的影響。如何將OOD從暴露的OOD推廣到更大範圍的OOD,還需要進壹步探索。

離群值暴露方法依賴於可以獲得OOD訓練數據的強假設,這在實踐中可能不是真實的。當OOD數據不可用時,壹些方法試圖合成OOD樣本,以便可以區分ID和OOD。現有工作使用GAN生成OOD訓練樣本,使模型輸出均勻(均勻正態?)以便在低密度區域中生成邊界樣本,或者類似地,生成具有高置信度的OOD樣本。

現有的OOD檢測方法主要依靠輸出或特征空間給出OOD得分,而忽略了梯度空間的信息。ODIN188首次探索利用梯度信息檢測OOD。ODIN使用預處理輸入,預處理是應用由輸入梯度產生的輕微擾動。ODIN擾動的目標是增強預測標簽中模型的置信度,從而增加任何給定輸入的softmax值。最後,我們可以找到使ID和OOD輸入的softmax分數之間的差異更大的幹擾,從而使它們更容易區分,OOD檢測性能更好。奧丁只是通過微擾含蓄地使用梯度。GradNorm使用梯度向量的範數,從softmax的輸出和正態概率分布的KL散度傳播回來。

貝葉斯模型是壹種統計模型,貝葉斯規則用於推斷模型中的所有不確定性。其中最具代表性的是貝葉斯神經網絡,它通過馬爾可夫鏈蒙特卡羅方法、拉普拉斯方法和變分推理來構造模型的認知不確定性,並從模型的後驗分布中采樣。它們最明顯的缺陷是預測不準確和計算成本高,這使得它們難以在實際中使用。最近嘗試了幾種不太有原則的(理論上弱?),包括MC-dropout [224]和deep fusion [225],299]用於更快更好地估計不確定性。這些方法在OOD不確定性的估計中沒有很大的競爭力。進壹步的探索需要在保留貝葉斯原理優點的同時,采用自然梯度變分推理,這樣才能采用實用、實惠的現代深度學習訓練。狄利克雷先驗網絡(DPN)也用於OOD檢測,通過對來自三個不同來源的不確定性建模已經做了壹系列工作:模型不確定性、數據不確定性和分布不確定性[227]、[228]和[229]。

最近的工作促進了大規模食品檢測更接近實際應用。兩個研究方向是:將OOD檢測擴展到大的語義空間和使用大的預訓練模型。比如168指出基於CIFAR基準數據的方法在語義空間更大的基準ImageNet上不起作用,強調了在大規模真實設置下評估OOD檢測的必要性。為了解決上述挑戰,MOS的關鍵思想是將壹個大的語義空間解構為具有相似概念的更小的組,這簡化了已知和未知數據之間的決策邊界。強大的預訓練模型在各種任務和模式下都取得了驚人的表現。同期的工作[171],[230]和[231]證明了預訓練的變壓器在特定困難的OOD任務上性能有顯著的提高。

在OOD檢測領域,基於密度的方法用壹些概率模型對分布中的數據進行顯式建模,並將低密度區域的測試數據標記為OOD。即使分布中的數據為多類別時,OOD檢測不同於異常檢測,但通過將分布中的數據統壹為壹個整體,3.1.2節中的密度估計方法可以直接應用於OOD檢測。當分布包含多個類別時,類別條件高斯分布可以顯式地對分布內的數據進行建模,因此可以根據輸出的預測概率來識別分布外的樣本。基於流量的方法[92]、[232]、[233]和[234]也可用於概率建模。直接估計OOD概率似乎是壹種自然的解決方案,有壹些方法[235],[236]和[237]通過向OOD樣本輸出更高概率的預測值來實現OOD檢測。238試圖用似然比來解決這個問題。239發現輸入復雜度和概率值存在明顯偏差,提出了壹種基於概率值比例的方法來降低輸入復雜度的影響。最近的方法已經轉向使用新的分數,例如似然回歸240或整合多個密度模型236。總的來說,生成模型的訓練和優化幾乎是不可接受的,其性能往往落後於基於分類的方法(3.3)。

基於距離的方法的基本思想是,測試中的OOD樣本應相對遠離分布內類別的中心或原型。207使用離所有類別的中心的最小Mahalanobis距離來檢測。後續的壹個作品,241,將畫面分為前景和背景,然後計算這兩個空間的Mahalanobis距離比。壹些工作使用測試樣本特征和類別特征之間的余弦相似性來確定OOD樣本242、243。訓練特征的第壹奇異向量的壹維子空間

此外,其他工作使用徑向基函數核的距離和從輸入嵌入向量到類別中心的歐拉距離。

自出現以來,食品檢測領域發展迅速,其解決方案從基於分類、基於密度,到基於距離。在多類設置下,典型的OOD檢測是壹個開集識別問題(第4節),它準確地將類空間Y中分布內的測試樣本分類,並丟棄語義不被Y支持的分布外的樣本..然而,OOD檢測包括更廣泛的學習任務(例如,多標簽分類)和解決方案(例如,密度估計和異常值暴露)。壹些方法放寬了開集檢測的限制,獲得了更強的性能。

離群點檢測要求所有樣本都是可見的,其目標是檢測那些顯著偏離多數分布的樣本。異常值檢測方法通常是轉導的,而不是歸納的。[13],[14],[15],[16]概述主要回顧了數據挖掘領域中的離群點檢測方法。下面主要回顧離群點檢測方法,特別是使用為計算機視覺設計的深度神經網絡的方法。即使深度學習方法很少能直接解決離群點檢測問題,但數據清洗程序(從臟的開集數據中學習的先決條件)和開集半監督學習方法也在解決離群點檢測問題。

離群點檢測模型的基本思想是將整個數據集建模為高斯分布,將偏離均值三杯標準差以上的樣本標記為離群點300301。其他帶參數的概率方法使用Mahalanobis距離[266]和高斯混合模型[302]來模擬數據密度。類似於“三倍標準差”規則,四分位數也可以通過構建傳統的非參數概率模型來檢測離群樣本247。為了穩健和簡化,局部離群因子方法248通過給定點的鄰居與其自身局部可達性的比率來估計給定點的密度。RANSAC252叠代地估計數學模型的參數以擬合數據,並找到對估計貢獻較小的樣本作為異常值。

壹般來說,異常檢測的經典密度方法,如核密度估計(3.1節),也可以應用於離群點檢測。即使這些方法因為圖片數據的高維數而難以應用,也可以通過降維方法253和254以及基於最近鄰的密度方法(3.1節)來緩解。

檢測異常值的壹種簡單方法是計算某壹半徑內鄰居的數量,或者測量第k個最近鄰居303、304的距離。下面主要介紹基於聚類和圖的方法。

DBSCAN255根據基於距離的密度累積樣本以形成壹個聚類。主聚類之外的樣本被識別為異常值。後續工作通過考慮聚類標簽的置信度來改進聚類方法256。

另壹種方法使用數據點之間的關系來構建鄰域圖[305]和[306](或其變體[307]),並使用圖屬性和圖挖掘技術來發現異常樣本257和258,例如使用圖神經網絡2665438的圖聚類[259]、[260]、圖分割308和標簽傳播。