當前位置:成語大全網 - 漢語詞典 - 什麽是深度學習和機器視覺?

什麽是深度學習和機器視覺?

深度學習的框架,尤其是基於人工神經網絡的框架,最早可以追溯到1980年福島班揚提出的新認知機,人工神經網絡的歷史更長。1989年,Yann LeCun等人開始將1974中提出的標準反向傳播算法[3]應用於深度神經網絡,用於手寫郵政編碼識別。雖然算法可以成功實現,但是計算成本非常巨大,神經網絡的訓練時間達到3天,無法投入實際使用[4]。很多因素導致了這個緩慢的訓練過程,其中之壹就是尤爾根·施密德胡貝爾的學生Sepp Hochreiter在1991 [5][6]中提出的梯度消失問題。與此同時,神經網絡受到了其他更簡單模型的挑戰,如支持向量機,它在20世紀90年代至20世紀初成為更受歡迎的機器學習算法。

“深度學習”的概念從2007年左右開始受到關註。當時Geoffrey Hinton和Ruslan Salakhutdinov在前向神經網絡中提出了壹種有效的訓練算法。在該算法中,網絡中的每壹層都被視為無監督的受限玻爾茲曼機,然後使用有監督的反向傳播算法進行優化[7]。在1992之前,在更壹般的情況下,schmid Huber也在遞歸神經網絡上提出了類似的訓練方法,並在實驗中證明了這種訓練方法可以有效提高監督學習的執行速度[8][9]。

自深度學習出現以來,它已經成為許多領域中各種領先系統的壹部分,尤其是在計算機視覺和語音識別方面。在語音識別中的TIMIT和圖像識別中的ImageNet、CIFAR 10等通用測試數據集上的實驗表明,深度學習可以提高識別準確率。

硬件的進步也是深度學習重獲關註的重要因素。高性能圖形處理器的出現大大提高了數值和矩陣運算的速度,顯著縮短了機器學習算法的運行時間[10][11]。

基本概念[編輯]

深度學習的基礎是機器學習中的分布式表示。離差是指觀測值假定是由不同因素相互作用產生的。在此基礎上,深度學習進壹步假設這種交互過程可以分為多個層次,代表對觀察值的多層次抽象。不同的層次和級別可以用於不同的抽象層次[1]。

深度學習就是利用這種分層抽象的思想,從較低層次的概念中學習較高層次的概念。這種層次結構往往是利用貪婪算法逐層構建的,從中選出更多對機器學習有幫助的有效特征[1]。

很多深度學習算法都是以無監督學習的形式出現的,所以這些算法可以應用於其他算法達不到的無標簽數據。這種數據比標記數據更豐富,也更容易獲得。這也為深度學習[1]贏得了重要優勢。

人工神經網絡下的深度學習[編輯]

壹些最成功的深度學習方法涉及到人工神經網絡的使用。人工神經網絡的靈感來自諾貝爾獎獲得者大衛·H·哈貝爾和托斯滕·威塞爾在1959中提出的理論。Huber和Wiesel發現大腦初級視皮層中有兩種細胞:簡單細胞和復雜細胞,它們承擔不同層次的視知覺。受此啟發,很多神經網絡模型也設計成不同節點之間的分層模型[12]。

Fukushima Bonhiko提出的新認知機器使用無監督學習訓練引入了卷積神經網絡。嚴樂存將監督反向傳播算法應用於該架構[13]。事實上,自20世紀70年代提出反向傳播算法以來,許多研究人員試圖將其應用於訓練有監督的深度神經網絡,但最初的嘗試大多失敗了。Sepp Hochreiter在博士論文中將失敗歸因於梯度消失,梯度消失在深度前饋神經網絡和遞歸神經網絡中都出現過,後者的訓練過程與深度網絡相似。在分層訓練的過程中,用於修改模型參數的誤差隨著層數的增加呈指數下降,導致模型訓練效率低下[14][15]。

為了解決這個問題,研究者們提出了壹些不同的方法。Jürgen Schmidhuber在1992中提出了多級網絡,利用無監督學習對深度神經網絡的每壹層進行訓練,然後利用反向傳播算法對其進行優化。在這個模型中,神經網絡中的每壹層都代表了壹個觀察變量的壓縮表示,該壓縮表示也被傳輸到網絡的下壹層[8]。

另壹種方法是由Sepp Hochreiter和Juergen schmid Huber提出的長短期記憶神經網絡(LSTM)[16]。2009年,在ICDAR 2009舉辦的連筆手寫識別大賽中,在沒有任何先驗知識的情況下,深度多維長時短時記憶神經網絡獲得了三項比賽的勝利[17][18]。

Sven Baker提出了壹種在訓練中僅依賴梯度符號的神經抽象金字塔模型,解決圖像重建和人臉定位問題[19]。

其他方法也是利用無監督的預訓練來構造神經網絡尋找有效特征,然後利用有監督的反向傳播來區分標記數據。Hinton等人在2006年提出的深度模型提出了壹種利用多個隱變量學習高層表示的方法。該方法使用smolenski在1986中提出的受限玻爾茲曼機[20]對包含高層特征的每壹層進行建模。該模型保證了數據對數似然的下界隨著層數的增加而增加。當學習到足夠多的層數時,這個深層結構就變成了壹代模型,整個數據集就可以通過自頂向下的采樣進行重構[21]。Hinton聲稱該模型可以有效地從高維結構化數據中提取特征[22]。

吳恩達和傑夫·迪恩領導的谷歌大腦(英文:Google Brain)團隊創建了壹個神經網絡,僅通過YouTube視頻學習高級概念(如貓)[23] [24]。

其他方法依賴於現代電子計算機的強大計算能力,尤其是GPU。2010年,在瑞士人工智能實驗室IDSIA的Juergen schmid Huber的研究小組中,Dan Ciresan和他的同事演示了直接用GPU實現反向傳播算法,忽略了梯度消失的存在。在顏樂存等人[10]給出的手寫識別MNIST數據集上,該方法優於現有的其他方法。

截止到2011年,前饋神經網絡深度學習的最新方法是交替使用卷積層和max-pooling層,並添加壹個簡單的分類層作為頂層。沒有必要在訓練過程中引入無監督的預訓練[25][26]。自2011以來,該方法的GPU實現[25]獲得了多種模式識別競賽,包括IJCCNN 2011交通標誌識別競賽[27]等競賽。

這些深度學習算法也首次在壹些識別任務中實現了與人類表現相同的競爭力[28]。

深度學習結構[編輯]

深度神經網絡是壹種至少有壹個隱含層的神經網絡。與淺層神經網絡類似,深層神經網絡也可以為復雜的非線性系統提供建模,但額外的層為模型提供了更高層次的抽象,從而提高了模型的能力。深度神經網絡通常是前饋神經網絡,但也有語言建模等方面的研究將其擴展到遞歸神經網絡[29]。協變神經元網絡(CNN)已經成功應用於計算機視覺領域[30]。此後,卷積神經網絡也被用作自動語音識別領域的聽覺模型,並取得了比以往方法更好的效果[31]。

深度神經網絡[編輯]

深層神經元網絡,DNN)是壹個判別模型,可以通過反向傳播算法進行訓練。權重更新可以通過使用以下公式的隨機梯度下降來解決:

學習率和成本函數在哪裏。該函數的選擇與學習的類型(如有監督學習、無監督學習和強化學習)和激活函數有關。例如,為了在壹個多分類問題上監督學習,通常的選擇是使用Softmax函數作為激活函數,交叉熵作為代價函數。Softmax函數定義為,其中表示類別的概率,和分別表示像元和的輸入。交叉熵定義為,表示輸出單元的目標概率和應用激活函數後輸出到該單元的概率[32]。

深度神經網絡的問題[編輯]

與其他神經網絡模型類似,深度神經網絡如果簡單訓練可能會有很多問題。兩個常見的問題是過擬合和運行時間長。

深度神經網絡容易過擬合,因為增加的抽象層使模型能夠對訓練數據中罕見的依賴關系進行建模。在這方面,可以在訓練過程中使用減少權重(歸壹化)或稀疏(-歸壹化)等方法來減少過擬合現象[33]。深度神經網絡訓練的另壹種後期歸壹化方法是“dropout”正則化,即在訓練中隨機丟棄壹部分隱層單元,以避免建模罕見的依賴關系[34]。

反向傳播算法和梯度下降法由於其實現簡單,與其他方法相比能更好地收斂到局部最優值,已經成為神經網絡訓練的常用方法。然而,這些方法的計算成本非常高,尤其是在訓練深度神經網絡時,因為需要考慮深度神經網絡的規模(即層數和每層的節點數)、學習速率、初始權重等許多參數。由於時間成本的原因,掃描所有參數是不可行的,因此使用小批量,即通過組合多個訓練樣本而不是壹次僅使用壹個樣本進行訓練,來加速模型訓練[35]。最顯著的速度提升來自於GPU,因為矩陣和向量計算非常適合GPU實現。然而,使用大規模集群來訓練深度神經網絡仍然是困難的,因此對於深度神經網絡的訓練的並行化仍然有改進的空間。

深度信仰網[編輯]

具有完全連接的可見層和隱藏層的受限玻爾茲曼機器(RBM)。註意,可見層單元和隱藏層單元的內部彼此不相連。

深度信念網絡(Deep belief networks,DBN)是壹種具有多個隱藏單元的概率生成模型,可以看作是由多個簡單學習模型組成的復合模型[36]。

深度信念網絡可以作為深度神經網絡的預訓練部分,並為網絡提供初始權值,然後使用反向傳播或其他決策算法作為優化的手段。這在訓練數據稀缺時很有價值,因為不恰當的初始化權重會顯著影響最終模型的性能,預訓練得到的權重比權重空間中的隨機權重更接近最優權重。這不僅提高了模型的性能,還加快了調諧階段的收斂速度[37]。

深度信念網絡中的每壹層都是典型的受限玻爾茲曼機(RBM),可以通過高效的無監督逐層訓練方法進行訓練。受限玻爾茲曼機是壹種無向的基於能量的生成模型,包括壹個輸入層和壹個隱藏層。圖中對的邊只存在於輸入層和隱藏層之間,輸入層節點和隱藏層節點內部沒有邊。單層RBM的訓練方法最早是由Jeffrey Hinton在《專家產品》的訓練中提出的,稱為對比發散(contrast divergence,CD)。對比散度提供了最大似然的近似值,這是學習受限玻爾茲曼機器的權重的理想方法[35]。訓練單層RBM時,可以在訓練好的RBM上疊加另壹層RBM,形成多層模型。在每次疊加時,將原多層網絡輸入層初始化為訓練樣本,權重為前壹次訓練得到的權重。這個網絡的輸出作為壹個新的RBM的輸入,新的RBM重復前面的單層訓練過程,整個過程可以繼續,直到達到某個期望的終止條件[38]。

雖然對比分歧對最大似然的逼近非常粗糙(對比分歧不在任何函數的梯度方向),但實證結果證明該方法是訓練深度結構的有效方法[35]。

卷積神經網絡[編輯]

主要項目:卷積神經網絡

卷積神經網絡(CNN)由壹個或多個卷積層和位於頂部的全連接層(對應於經典神經網絡)組成,還包括相關權重和池層。這種結構使得卷積神經網絡能夠利用輸入數據的二維結構。與其他深度學習結構相比,卷積神經網絡可以在圖像和語音識別中給出更好的結果。該模型也可以通過反向傳播算法進行訓練。與其他深度和前饋神經網絡相比,卷積神經網絡需要估計的參數更少,這使其成為壹種有吸引力的深度學習結構[39]。

卷積深度信念網絡[編輯]

卷積深度信念網絡(CDBN)是深度學習領域中壹個相對較新的分支。在結構上,卷積深度信念網絡類似於卷積神經網絡。因此,與卷積神經網絡類似,卷積深度信念網絡也具有使用圖像的二維結構的能力。同時,卷積深度信念網絡還具有深度信念網絡的預訓練優勢。卷積深度信念網絡提供了壹種通用結構,可以用於信號和圖像處理任務,也可以通過類似於深度信念網絡的訓練方法進行訓練[40]。

結果[編輯]

語音識別[編輯]

下表中的結果顯示了在流行的TIMIT數據集上進行深度學習的結果。TIMIT包含持有八種常見美式英語口音的630人的語音數據,每個人閱讀10個句子。這些數據在深度學習發展之初經常被用來驗證深度學習的結構[41]。TIMIT數據集很小,因此研究人員可以在其上試驗不同的模型配置。

方法

聲音錯誤率(PER,%)

隨機初始化RNN 26.1

貝葉斯三音HMM嗯25.6

單調重復初始化DNN 23.4

單調DBN-DNN 22.4

三音GMM-HMM 265438帶BMMI訓練+0.7

* * *在遊泳池享受DBN-DNN 20.7秒的單聲道音樂。

卷積DNN 20.0

圖像分類[編輯]

圖像分類領域中公認的評價數據集是MNIST數據集。MNIST由手寫阿拉伯數字組成,包括60,000個訓練樣本和65,438+00,000個測試樣本。與TIMIT類似,其數據規模較小,因此可以很容易地在不同的模型配置中進行測試。Yann LeCun的網站給出了用各種方法得到的實驗結果[42]。直到2012,當年Ciresan等人給出了最好的判別結果,這個結果的錯誤率達到了0.23%[43]。

深度學習和神經科學[編輯]

計算機領域的深度學習與認知神經科學研究者在20世紀90年代提出的大腦發展理論(尤其是皮層發展理論)密切相關[44]。最容易理解這壹理論的是1996年出版的傑弗裏·艾爾曼的專著《反思先天》[45](見蛞蝓和約翰遜[46]以及奎托斯和塞格諾夫斯基[47])。因為這些理論給出了實用的神經計算模型,是純計算驅動的深度學習模型的技術先驅。這些理論指出,大腦中的神經元是由不同層次組成的,這些層次相互聯系,形成壹個過濾系統。在這些層次中,每壹層的神經元從其所處的環境中獲取壹些信息,經過處理後傳遞到更深層次。這和後來的純與計算有關的深度神經網絡模型類似。這壹過程的結果是壹個與環境和諧的自組織堆疊轉換器。如《紐約時報》1995所載,“...嬰兒的大腦似乎受到所謂的“營養因素”的影響,並自行組織起來...大腦的不同區域依次相連,不同層次的腦組織按照壹定的順序發育成熟,直至整個大腦發育成熟。”[48]

深層結構在人類認知進化和發展中的重要性也受到認知神經科學家的關註。發育時間的變化被認為是人類和其他靈長類動物之間智力發展差異的壹個方面[49]。在靈長類動物中,人類的大腦在出生後很長壹段時間內是可塑的,但其他靈長類動物的大腦在出生時幾乎完全成型。因此,人類可以在大腦發育最具可塑性的階段接觸到更復雜的外部場景,這可能有助於人類大腦適應快速變化的環境,而不是像其他動物的大腦那樣更多地受到基因結構的限制。這種發育時間的差異還體現在大腦皮層的發育時間和大腦早期自組織中從刺激環境獲取信息的變化上。當然,這種可塑性伴隨著更長的童年,在此期間,人們需要依靠照顧者和社會群體的支持和培養。所以這個理論也揭示了人類進化中文化和意識* * *共進化的現象[50]。

公眾視野下的深度學習[編輯]

深度學習往往被認為是邁向真正人工智能的重要壹步[51],所以很多機構都對深度學習的實際應用感興趣。2013 12,臉書宣布將聘請嚴樂存擔任其新建的人工智能實驗室的主任,該實驗室將在加州、倫敦和紐約設立分支機構,以幫助臉書研究深度學習算法的使用,如自動標記照片中的用戶名[52]。

2013年3月,傑弗裏·辛頓(Jeffrey Hinton)和他的兩名研究生亞歷克斯·克雷塞(Alex Creaser)和伊利婭·蘇茨科娃(Ilija Sutskova)受聘於谷歌,升級現有的機器學習產品,幫助處理谷歌不斷增長的數據。谷歌還收購了辛頓[53]創辦的DNNresearch[53]公司。

批評[編輯]

對深度學習的主要批評是很多方法缺乏理論支持。大多數深度結構只是梯度下降的壹些變化。雖然梯度下降已經得到了充分的研究,但理論上涉及的其他算法,如對比分歧算法,還沒有得到充分的研究,它們的收斂性等問題還不清楚。深度學習方法往往被視為黑箱,大部分結論都是通過經驗而非理論來證實的。

壹些學者也認為,深度學習應該被視為壹種真正的人工智能的方式,而不是壹種包羅萬象的解決方案。雖然深度學習的能力很強,但與真正的人工智能相比,它仍然缺乏很多重要的能力。理論心理學家加裏·馬庫斯指出:

事實上,深度學習只是構建智能機器這壹更大挑戰的壹部分。這些技術缺乏表達因果關系的手段...邏輯推理的方法,而遠沒有綜合的抽象知識,如關於物品的性質、代表和典型用途的信息。最強大的人工智能系統,如IBM的人工智能系統Watson,只把深度學習作為壹個包括貝葉斯推理和演繹推理的復雜技術集的組成部分[54]。