對話清華大學孫茂松:第三代人工智能要處理好“可解釋性”的問題

就像人類會綜合利用視覺、聽覺、觸覺、語言等信息壹樣，讓人工智能(AI)多角度、多模式、多學科地學習自然語言，也是清華大學人工智能研究院的目標和任務。

2065438+2009年7月1日，清華大學人工智能研究院第八研究中心:自然語言處理與社會人文計算研究中心(以下簡稱中心)在學校本部FIT大樓舉行成立儀式。該中心主任為清華大學人工智能研究院常務副院長、國家重點基礎研究發展計劃(973計劃)首席科學家孫茂松教授。

7月3日，本報記者(www.thepaper.cn)走進清華校園，與孫茂松教授聊起了這個格外長的中心成立的背景、使命，以及人工智能的發展現狀、困境和解決方案。

AI詩人，人工智能助理評委，未來諾貝爾經濟學獎得主

語言是人類智慧的重要標誌，在人類文明中的地位和作用毋庸置疑。自然語言處理，通俗點說就是“讓計算機學習人類語言”。清華大學新成立的中心旨在通過加強人工智能的基礎研究及其與人文社會科學的交叉合作，為機器建立更強大的知識庫，以增強人工智能在語言學習和處理方面的能力。

孫茂松認為，人工智能和社會科學、人文科學之間主要有兩個橋梁。壹種是狹義數據，比如金融市場中的數據，可以根據數據預測市場行為；另壹類是語言形成的文本，如新聞、消息、用戶在社交網絡上反映自己觀點和情緒的各種“短信”等等。

基於人類語言和文字的橋梁，從2015年底開始，他指導了壹個以兩個本科生為主體的課題組，通過深度神經網絡的方法，讓機器能夠“讀”和“懂”所有的古詩。在此基礎上，他又推出了會寫詩的AI——《九歌》，讓人工智能“跨界”進入文學創作領域。由於大眾的關註和參與，《九歌》至今已經產生了差不多400萬首詩。“從古至今流傳下來的詩歌總數估計不到400萬首。如果妳這麽想，效果還不錯。”目前，該小組正在研究現代詩歌的產生，以滿足公眾日益多樣化的“詩歌要求”。

社會人文是壹個非常寬泛的概念。除了文學，今年，人工智能研究所正在與清華大學法學院合作，在原有法律的基礎上增加更多計算和人工智能的元素。法學院越來越意識到，“計算法學”是未來法學研究的壹個發展趨勢。孫茂松還提到，近年來由最高人民法院牽頭的檔案數字化、公開化是計算法學發展的重要基礎。

當本報(www.thepaper.cn)記者問未來是否會有“人工智能法官”時，孫茂松說，“應該會有“人工智能助理法官”。雖然機器的能力在本質上肯定是優於好法官的，但是機器也確實有它的優勢。例如，它可以快速讀取大量文件。人有時候會判斷片面，情緒會波動，判斷的水平會參差不齊，但機器不會。”

孫茂松指出，基於大數據的人工智能深度神經網絡方法(也叫深度學習方法，見下文)可能會帶來壹些社會人文領域研究範式的改變。雖然清華人工智能研究院剛剛開始外匯匯率預測的研究，但他認為人工智能與金融、經濟的深度融合有望帶來極其強大的成果。深度學習方法壹旦被創造性地、系統地應用到這個領域，甚至可能“在國際上獲得壹個諾貝爾經濟學獎”。

鑒於金融經濟系統的高度復雜性，孫茂松認為，當各種相關信息被覆蓋，並且有高超的手段對這些信息進行有效處理時，這個復雜系統的可預測性就會顯著增加。他舉了壹個例子，“螞蟻王國有自己的壹套運行規則，但這個規則有時候會變得非常脆弱，因為它可能會突然來壹個人，猛地壹腳，給這個王國帶來災難。只是從螞蟻的世界來看，這種突發事件是無法預料的。但是，如果我們把人的因素包括進去，仔細了解這個人的本性，比如他是不是壹個有愛心的人，是不是壹個佛教徒，他的行為的可預測性就會大大提高，螞蟻王國的不可預測性就會大大降低。”

在孫茂松看來，古典金融學或經濟學的研究範式主要依靠人的理性思考和求解方程(無論是線性還是非線性)。然而，復雜龐大的金融經濟系統充滿了不確定性，很多現象很難用方程來明確描述。然而，深度學習方法是高度非線性的。在大數據的驅動下，理論上可以隱式模擬任何復雜的方程，更有效地處理系統的不確定性。這使得產生壹種全新的金融學或經濟學的研究範式成為可能。

把“黑箱”變成“灰箱”

“當代人工智能教父”、2018圖靈獎獲得者Yoshua Bengio認為，人工智能領域近年來的巨大變革歸功於“深度學習”的出現。他在壹篇題為《深度學習:人工智能的復興》的署名文章中說，“近年來，深度學習已成為推動人工智能發展的最重要力量，各大信息技術公司已在這方面投入數十億美元。”

本吉奧在接受該報(www.thepaper.cn)專訪時表示，現有的自然語言處理系統已經掌握了大量的詞匯和語言轉換技巧，但它並不理解句子的真正含義。機器“會犯壹些非常愚蠢的錯誤，甚至沒有兩歲孩子的理解能力”。同時，他認為模擬人腦的神經網絡，以實現類似人工智能的機器學習技術，對新時代具有重要意義。

盡管意義重大，但目前的深度神經網絡系統有壹個重大不足:給定壹個輸入，系統給出相應結果的深刻原因對人來說是不透明的，從這個意義上說，它基本上是壹個“黑箱”。這將大大降低系統的魯棒性，縮小系統的適用範圍。當我們深究機器為什麽會出錯時(比如為什麽機器翻譯系統會把壹句話翻譯成這樣而不是那樣)，機器無法給出解釋。“反正我翻譯成這樣，妳就用吧。”

此外，深度學習最擅長處理關聯性:輸入“雞鳴”壹詞，會自動聯想到“太陽已經升起”這句話。這反映了壹種相關性，但顯然前者不是後者的原因。深度學習現在基本沒有因果推理能力。孫茂松說，深度學習只是“感覺”到兩件事在統計意義上有關聯，並不知道它們之間是否有邏輯關系。

孫茂松進壹步解釋說，自然語言處理的研究也面臨同樣的問題。事實上，“可解釋性”是整個人工智能領域面臨的困境，也是國際學術研究的前沿。研究人員試圖讓這個人工智能“黑匣子”至少變成壹個“灰匣子”。孫茂松認為，知識庫的構建可能是自然語言處理中的壹個解決方案。以古詩詞寫作為例:“灞橋”，其次是“劉哲”。深度學習應該可以從詩歌數據庫中捕捉到這種知識關聯，但其他很多知識關聯能否學習到就不好說了。但是，如果我們有意識地把所有和灞橋有關的東西都提前列出來，比如“巴水、驛站、銷魂、斷腸、長安、關中八景、李白、李商隱、孟浩然等。”，並建立知識圖譜，那麽機器就可以有意識地根據這個知識圖譜寫詩，更有針對性，更有針對性。

據人工智能研究所所長張越院士介紹，人工智能在其發展歷史中經歷了理性主義和經驗主義。第三代人工智能應該是兩者的完美結合。解決可解釋性問題是其核心研究任務之壹。

因為知識是自然可解釋的，知識庫是可解釋的。

“雖然通識課程和專業課程都要考慮，但重點應該是通識課程而不是專業課程。”

在以人工智能和大數據為標誌的第四次工業革命到來之際，國內多所高校開始布局人工智能教育。2065438+2007年5月，中國科學院大學成立人工智能技術學院，成為中國人工智能技術領域第壹個全面開展教學科研的新型學院；2018年，上海交通大學、南京大學相繼成立了人工智能學院和人工智能學院，南京大學也招收了第壹批人工智能專業本科生。

清華大學作為中國頂尖的高等學府，壹直非常重視頂尖人才的培養。成立於2005年的計算機科學實驗班(因其創始人姚期智是圖靈獎唯壹華人獲得者而得名“姚班”)，是中國乃至世界頂尖計算機人才培養的搖籃。壹流的高等教育有責任幫助計算機科學和人工智能達到下壹個令人鼓舞的高度，應該能夠給這個時代帶來顛覆性的影響。

那麽，是否有必要設置人工智能本科專業呢？人工智能在本科階段是否應該成為壹個獨立的系？

“在清華最主要的是穩定。如果沒有特殊需求，是不會改變的。如果改變了，就會變得混亂。兩個群體可能會無序競爭。”整體穩定，積極探索，是清華大學對人工智能本科教育的方針。

今年，清華大學在“姚班”之外新設了壹個“智能班”，名為“清華學堂人工智能班”。在計算機教育結構基本不變的前提下，本次小規模實驗班將對人工智能人才尤其是頂尖人才的培養進行深入探索。人工智能研究院的工作主要定位在研究生階段，尤其是博士生的培養。

在這個中心之前，清華大學先後成立了人工智能研究院基礎理論研究中心、智能機器人研究中心等7個研究機構。

孫茂松表示，這八個中心的核心力量主要對應的是人工智能研究的“初心”，即對人類感知和認知的研究。感知最重要的通道是視覺和聽覺，所以建立了視覺智能和聽覺智能的中心；認知反映了人的語言、推理、邏輯和學習能力，因此設置了基礎理論中心、知識智能中心和自然語言處理中心。進壹步探索的是智能人機交互、智能多模態信息交互乃至機器人的相關研究。這些中心密切相關，相互合作。

剛滿壹周歲的清華人工智能研究院，基本實現了“整合力量，統籌安排”的目標。孫茂松表示，未來兩個中心將分別以“社交網絡大數據”和“人工智能芯片”為關鍵詞。