第壹階段(1964 ~1990)
現階段,人臉識別通常只是作為壹般的模式識別問題來研究,采用的主要技術方案是基於人臉幾何特征的方法。這主要體現在人們對側面輪廓的研究上,人們對面部輪廓曲線的結構特征的提取和分析做了大量的研究。人工神經網絡曾被研究人員用於人臉識別。除了布萊索之外,還有其他較早從事AFR研究的研究者,如果爾德施坦因、哈蒙和金德武夫。金武夫於1973在京都大學完成了他的第壹篇關於AFR的博士論文。直到現在,作為卡耐基梅隆大學(CMU)機器人研究所的教授,他仍然是人臉識別領域的活躍人物之壹。他的研究組也是人臉識別領域的重要力量。總的來說,這個階段是人臉識別研究的初級階段,沒有太多非常重要的成果,也基本沒有在實踐中得到應用。
第二階段(1991年~1997)
這個階段雖然比較短,但卻是人臉識別研究的高潮,可謂碩果累累:不僅誕生了壹些有代表性的人臉識別算法,而且美國軍方還組織了著名的FERET人臉識別算法測試,出現了幾個商業化運營的人臉識別系統,比如最著名的Visionics(現Identix) FaceIt系統。
麻省理工學院(MIT)媒體實驗室的Turk和Pentland提出的“特征臉”方法無疑是這壹時期最著名的人臉識別方法。很多後續的人臉識別技術都或多或少與特征臉有關,現在特征臉已經和歸壹化相關方法壹起成為人臉識別性能測試的基準算法。
這壹時期的另壹項重要工作是麻省理工學院人工智能實驗室的Brunelli和Poggio在1992左右進行的對比實驗。他們比較了基於結構特征的方法和基於模板匹配的方法的識別性能,並給出了明確的結論:基於模板匹配的方法優於基於特征的方法。這壹指導性結論與特征臉* * *(feature face * * *)共同作用,基本停止了基於結構特征的人臉識別方法的研究,在很大程度上促進了基於外觀和統計模式識別技術的基於線性子空間建模的人臉識別方法的發展,使其逐漸成為主流的人臉識別技術。
Belhumeur提出的Fisherface人臉識別方法是這壹時期的又壹重要成果。首先,利用主成分分析對圖像表觀特征進行降維。在此基礎上,利用線性判別分析(LDA)方法對降維後的主成分進行變換,以獲得“盡可能大的類間散度和盡可能小的類內散度”。目前,這種方法仍然是主流的人臉識別方法之壹,產生了許多不同的變體,如零空間方法、子空間判別模型、增強判別模型、直接LDA判別方法以及最近壹些基於核學習的改進策略。
另壹方面,麻省理工學院的Moghaddam提出了壹種在對偶空間中基於貝葉斯概率估計的人臉識別方法。該方法通過“差分法”將兩幅人臉圖像對的相似度計算轉化為壹個兩類(類內差和類間差)分類問題。類內差異和類間差異數據都必須通過主成分分析技術進行降維,並計算兩類數據的條件概率密度。最後通過貝葉斯決策(最大似然或最大後驗概率)進行人臉識別。
人臉識別中的另壹個重要方法——彈性圖匹配(EGM)也是在這壹階段提出的。基本思想是用屬性圖描述人臉:屬性圖的頂點代表人臉的關鍵特征點,其屬性是對應特征點處的多分辨率多方向局部特征——Gabor變換[12]特征,稱為Jet邊緣的屬性是不同特征點之間的幾何關系。對於任意輸入人臉圖像,彈性圖匹配使用優化的搜索策略來定位壹些預定義的關鍵人臉特征點,同時提取它們的Jet特征,得到輸入圖像的屬性圖。最後通過計算其與已知人臉屬性圖的相似度來完成識別過程。這種方法的優點是既保留了人臉的全局結構特征,又對人臉的關鍵局部特征進行了建模。最近,這種方法有了壹些擴展。
局部特征分析技術是由洛克菲勒大學的Atick等人提出的。本質上,LFA是壹種基於統計的低維對象描述方法。與只能提取全局特征而不能保持局部拓撲結構的PCA相比,LFA可以基於全局PCA描述提取局部特征,同時保持全局拓撲信息,因此具有更好的描述和判別能力。LFA技術作為著名的FaceIt系統已經商業化,所以後期沒有新的學術進展發表。
美國國防部反毒品技術發展計劃辦公室資助的FERET項目無疑是這壹階段的壹個至關重要的事件。FERET項目的目標是開發安全、情報和執法部門可以使用的AFR技術。該項目包括三個部分:資助多項人臉識別研究,創建FERET人臉圖像數據庫,組織FERET人臉識別性能評估。項目分別在1994、1995、1996組織了三次人臉識別評測,幾個最著名的人臉識別算法都參與了測試,極大地促進了這些算法的完善和實用化。本次測試的另壹個重要貢獻是給出了人臉識別的進壹步發展方向:光照、姿態等非理想采集條件下的人臉識別逐漸成為熱門研究方向。
包括主動形狀模型(ASM)和主動外觀模型(AAM)在內的柔性模型是這壹時期人臉建模的重要貢獻。ASM/AAM將人臉描述為兩個獨立的部分,2D形狀和紋理,分別用統計方法(PCA)建模,然後進壹步用PCA將它們整合起來,對人臉進行統計建模。柔性模型具有良好的人臉合成能力,基於合成的圖像分析技術可用於人臉圖像的特征提取和建模。柔性模型在人臉對齊和識別中得到了廣泛的應用,並出現了許多改進的模型。
總的來說,現階段人臉識別技術發展非常迅速,提出的算法在理想的圖像采集條件、物體協調和中小型正面人臉庫方面都取得了非常好的表現,因此出現了幾家知名的人臉識別商業公司。從技術方案上看,2D人臉圖像的線性子空間判別分析、統計表觀模型和統計模式識別方法是現階段的主流技術。
第三階段(1998 ~現在)
對FERET’96人臉識別算法的評測表明,主流人臉識別技術對非理想采集條件或不協調物體引起的光照和姿態變化不具有魯棒性。因此,光照和姿態問題逐漸成為研究熱點。同時,人臉識別的商業化系統也得到了進壹步的發展。因此,在FERET測試的基礎上,美軍於2000年和2002年組織了兩次商用系統評估。
Georghiades等人提出的基於光照錐模型的多姿態多光照人臉識別方法就是這壹時期的重要成果之壹。他們證明了壹個重要結論:同壹張人臉在同壹視角、不同光照條件下的所有圖像,在圖像空間形成壹個凸錐,即光照錐。為了從少量光照條件未知的人臉圖像中計算光照錐,他們還擴展了傳統的光度立體視覺方法,該方法可以在Lambert模型的假設下,根據七幅光照條件相同的未知圖像,恢復物體的三維形狀和表面點的表面反射系數, 凸面和遠光源(傳統的光度立體視覺可以根據已知光照條件的三幅給定圖像恢復物體表面的法向量方向),從而可以方便地合成該視角下任意光照條件的圖像,完成光照錐的計算。 通過計算從輸入圖像到每個照明錐體的距離來完成識別。
在此期間,以支持向量機為代表的統計學習理論也被應用於人臉識別和確認。支持向量機是兩類分類器,而人臉識別是多類問題。解決這個問題通常有三種策略,即:類內差/類間差法、壹對多法和壹對壹法。
Brands和Vetter提出的基於三維形變模型的人臉圖像分析和識別方法是這壹階段的開創性工作。這種方法本質上屬於基於綜合的分析技術。其主要貢獻在於基於三維形狀和紋理的統計形變模型(類似於2D的AAM),同時利用圖形仿真的方法對圖像采集過程中的透視投影和光照模型參數進行建模,使人臉的內部屬性如人臉形狀和紋理與外部參數如攝像頭配置和光照完全分離,更有利於人臉圖像的分析和識別。Blanz實驗表明,該方法在CMU-派(多姿態、光照和表情)人臉庫和FERET多姿態人臉庫上取得了較高的識別率,證明了該方法的有效性。
在2001國際計算機視覺大會(ICCV)上,Compaq研究院的Viola和Jones研究員展示了他們基於簡單矩形特征和AdaBoost的實時人臉檢測系統,檢測CIF格式的準正臉速度達到每秒15幀以上。該方法的主要貢獻包括:1)使用簡單的可以快速計算的矩形特征作為人臉圖像特征;2)將大量基於AdaBoost的弱分類器進行組合,形成強分類器的學習方法;3)采用級聯技術提高檢測速度。目前,基於這種人臉/非人臉學習的策略已經能夠實現準實時的多姿態人臉檢測和跟蹤。這為後端人臉識別提供了良好的基礎。
Shashua在2001中提出了壹種基於商圖[13]的人臉圖像識別與渲染技術。該技術是壹種基於特定物體圖像集學習的渲染技術,可以根據訓練集中少量光照不同的圖像,合成任意輸入人臉圖像在各種光照條件下的合成圖像。基於此,Shasuha等人也給出了光照恒定的人臉簽名圖像的定義,可用於光照恒定的人臉識別。實驗證明了其有效性。
Basri和Jacobs用球諧函數來表示光照,用卷積過程來描述Lambert反射,解析地證明了壹個重要結論:任意遠光源得到的所有Lambert反射函數的集合構成壹個線性子空間。這意味著凸朗伯曲面物體在各種光照條件下的像集可以用低維線性子空間來近似。這不僅與以往光照統計建模方法的實證實驗結果壹致,而且在理論上進壹步推動了線性子空間目標識別方法的發展。而且使得用凸優化方法強制光照函數非負成為可能,為解決光照問題提供了重要的思路。
在FERET項目之後,出現了幾個人臉識別商業系統。美國國防部相關部門針對人臉識別的商用系統進壹步組織了FRVT的評測,至今已經舉辦了兩次:FRVT2000和FRVT2002。壹方面,這兩個測試比較了知名人臉識別系統的性能。比如FRVT2002測試顯示Cognitec、Identix、Eyematic遙遙領先於其他系統,但彼此差別不大。另壹方面,全面總結了人臉識別技術的發展現狀:在理想條件下(正面簽證照片),人臉識別的最高優選識別率為73%,人臉驗證的等錯誤率(EER[14])為37437人,1589張圖像。FRVT測試的另壹個重要貢獻是,它進壹步指出了當前人臉識別算法中亟待解決的壹些問題。例如,FRVT2002的測試表明,目前商用人臉識別系統的性能對室內外光照變化、姿態、時間跨度等變化條件仍然非常敏感,在大規模人臉數據庫上的有效識別問題也非常嚴重。這些問題仍需進壹步努力。
總的來說,在非理想成像條件下(特別是光照和姿態),物體不協調的情況下,大規模人臉庫上的人臉識別問題逐漸成為壹個熱點問題。非線性建模方法、統計學習理論、基於Boosting的學習技術[15]、基於3D模型的人臉建模與識別方法等。已經逐漸成為技術的發展趨勢。
總之,人臉識別是壹個既有科研價值又有廣闊應用前景的研究課題。國際上大量的研究人員在幾十年的時間裏取得了豐碩的研究成果,自動人臉識別技術在壹定的限制條件下得到了成功的應用。這些成果加深了我們對自動人臉識別問題,尤其是其挑戰性的認識。雖然現有的自動人臉識別系統在海量人臉數據的比對速度甚至準確率上可能已經超越了人類,但是對於復雜變化條件下的壹般人臉識別問題,自動人臉識別系統的魯棒性和準確率遠不如人類。這種差距的本質原因還不得而知,畢竟我們對人類視覺系統的了解還很膚淺。然而,從模式識別和計算機視覺的角度來看,這可能不僅意味著我們沒有找到有效的傳感器來合理地采樣面部信息(考慮到單目攝像頭和人類雙目系統的差異),還意味著我們采用了不恰當的人臉建模方法(人臉的內部表征),還可能意味著我們沒有意識到自動人臉識別技術所能達到的極致精度。但無論如何,賦予計算設備類似於人的人臉識別能力,是該領域眾多研究者的夢想。我相信,隨著研究的深入,我們的理解應該能夠更加準確地接近這些問題的正確答案。