當前位置:成語大全網 - 端午節詩句 - 對話清華大學孫茂松:第三代人工智能要處理“可解釋性”問題

對話清華大學孫茂松:第三代人工智能要處理“可解釋性”問題

正如人類會綜合利用視覺、聽覺、觸覺、語言等信息,讓人工智能(AI)從多角度、多模態、多學科學習自然語言也是清華大學人工智能研究院的目標與任務。

2019年7月1日,清華大學人工智能研究院第八個研究中心:自然語言處理與 社會 人文計算研究中心(以下簡稱中心)在校本部FIT樓舉行成立儀式。中心主任由清華大學人工智能研究院常務副院長、國家重點基礎研究發展計劃(973計劃)項目首席科學家孫茂松教授擔任。

7月3日,澎湃新聞(www.thepaper.cn)記者走進清華園,與孫茂松教授聊了聊這個名字格外長的中心成立的背景、擔負的使命、以及當下人工智能的發展、困境與解決方法。

AI詩人、人工智能輔助法官與未來的諾貝爾經濟學獎獲得者

語言是人類智能的重要標誌,在人類文明中的地位與作用毋庸置疑,自然語言處理,通俗地解釋就是“讓計算機學習人類語言”。清華大學新設立的中心旨在通過加強人工智能的基礎研究及其與人文社科學科的交叉合作,建立更強大的機器用知識庫,進而提升人工智能對語言的學習和處理的能力。

孫茂松認為,目前人工智能同 社會 科學和人文科學的結合有兩個主要的橋梁,壹個是狹義的數據,比如說金融市場上的數據,可根據數據來預測市場行為;另壹個就是語言文字形成的文本,比如新聞、消息、用戶在社交網絡上反映觀點和情緒的各種“短信息”等等。

基於人類語言文字這壹橋梁,自2015年底起,他指導壹個最初以兩位本科生為主體的課題小組,通過深度神經網絡的方法,讓機器對全部古代詩歌進行“閱讀”並“理解”,在此基礎上,推出了會作詩的AI——“九歌”,使人工智能“跨界”到了文學創作領域。由於公眾的關註與參與,到目前為止“九歌”已經產生了差不多400萬首詩,“從古流傳至今的詩歌總量估計達不到400萬首,如果這麽想,效果也還不錯。”小組目前正在研究現代詩的生成,以期滿足大眾越來越多樣的“作詩要求”。

社會 人文學科是壹個很寬廣的概念。除了文學外,今年以來人工智能研究院正在與清華大學法學院合作,在原有的法學基礎上更多地加入計算與人工智能的成分。法學院越來越認識到,“計算法學”是未來法學研究的壹個發展趨勢。孫茂松也提到,近年來最高人民法院領導的案卷卷宗數字化、公開化是計算法學發展的壹個重要基礎。

當澎湃新聞(www.thepaper.cn)記者問未來是否會有“AI法官”時,孫茂松說,“應該會有‘人工智能輔助法官’。雖然本質上機器的能力肯定超不過優秀的法官,但機器確實有它的長處,比如說它可以快速閱讀大量的卷宗,人有時候會判斷有片面性、情緒上會有所波動、法官水平也會參差不齊,機器則不會。”

孫茂松指出,人工智能目前基於大數據的深層神經網絡方法(也叫深度學習方法,見後)有可能為某些 社會 人文領域帶來研究範式的改變。雖然清華人工智能研究院目前剛剛開始進行外匯兌換率預測的研究,但他認為人工智能與金融、經濟的深度融合可望帶來極具震撼力的成果,壹旦深度學習方法被創造性地、系統性地應用到這個領域,甚至“這幾年國際上能出壹個諾貝爾經濟學獎”。

針對金融、經濟系統的高度復雜性,孫茂松認為,當把各類相關信息都涵蓋進來,並且有高超的手段對這些信息進行“大壹統”式的有效處理時,這個復雜系統的可預測性便會顯著上升。他舉了個例子,“螞蟻王國有自己的壹套運作規律,但這個規律有時會變得非常脆弱,因為可能突然來壹個人,啪地來壹腳,便給這個王國帶來了滅頂之災。僅僅從螞蟻的世界來看,這個突發事件是不可預測的。但如果把人的因素包含進來,細致了解這個人的秉性,比如他是否是壹個有愛心的人、是否是壹名佛教徒等等,他的行為的可預測性就會大大提高,螞蟻王國的不可預測性也會隨之大大降低”。

在孫茂松看來,經典金融學或經濟學的研究範式主要是依靠人的理性思辨和求解方程(無論是線性還是非線性方程)。但復雜且龐大的金融和經濟系統裏充滿了不確定性,很多現象難以用方程顯式地刻畫。但深度學習方法具有高度的非線性性質,在大數據的驅動下,理論上它能隱式地模擬任何復雜的方程,更加有效地處理系統的不確定性。這就使得壹種全新的金融學或經濟學研究範式的產生成為可能。

把“黑盒子”變成“灰盒子”

“當代人工智能教父”、2018年圖靈獎得主約書亞·本吉奧(Yoshua Bengio)認為,人工智能領域在近些年出現巨大變革要歸功於 “深度學習”(deep learning)的出現。他在壹篇名為《深度學習:人工智能的復興》的署名文章中說,“近年來,深度學習已經成為了驅動人工智能領域發展的最主要力量,各大信息技術公司在這方面***擲下了數十億美元的資金。”

本吉奧此前接受澎湃新聞(www.thepaper.cn)記者專訪時表示,現有的自然語言處理系統掌握了大量的詞匯量和語言轉換的技巧,但是卻並不理解句子的真正含義,機器“會犯壹些非常愚蠢的錯誤,甚至沒有兩歲小孩的理解能力”。同時他認為,模擬人腦的神經網絡以期能夠實現類人工智能的機器學習技術,即神經網絡技術對於新時代的意義是巨大的。

盡管意義巨大,但目前的深層神經網絡系統存在著壹個重大不足:給定壹個輸入,系統給出相應結果的深刻原因對人來說是不透明的,從這個意義上來說,它基本上是壹個“黑盒子”。這就導致系統的穩健性會變大打折扣,系統的適用範圍也會縮窄。當我們深究機器為什麽犯錯時(如機器翻譯系統為什麽把壹句話翻成這樣、而不翻成那樣),機器卻無法給出解釋,“反正我就翻成這樣,妳看著用吧。”

此外,深度學習最擅長處理的是關聯性:當輸入“公雞打鳴”這個詞語時,它會自動聯想到“太陽升起來了”這句話。這體現了壹種關聯性,但顯然前者不是導致後者的原因。深度學習現在基本上沒有因果推理能力。孫茂松說,深度學習只是在統計意義上“覺得”某兩個東西是相關的,但兩者之間到底有沒有邏輯關系,它卻渾然不知。

孫茂松進壹步闡釋,自然語言處理研究面臨著同樣的難題,實際上,“可解釋性”是整個人工智能領域目前面臨的困境,也是目前的國際學術研究前沿。研究者們正在努力讓這個人工智能“黑盒子”至少變成壹個“灰盒子”。孫茂松認為,在自然語言處理方面,知識庫的構建或許是壹個解決方法。以古詩詞寫作舉例:“灞橋”後接“折柳”,深度學習應該能從詩庫中捕捉到這個知識關聯,但其它眾多知識關聯是否都能學到,就不好說了。但如果我們自覺地把跟“灞橋”相關的東西全預先列出來,如“灞水、驛站、銷魂、斷腸、長安、關中八景、李白、李商隱、孟浩然…”,建立起壹個知識圖譜,那麽,機器就可以根據這個知識圖譜比較自覺地去寫詩,針對性更強,寫詩過程也便具有了壹定的可解釋性。

根據人工智能研究院院長張鈸院士的說法,人工智能在其發展史上已經先後經歷了理性主義和經驗主義兩代。第三代人工智能應該是這兩者的完美結合。解決可解釋性問題,是其核心研究任務之壹。

因為知識天然地具有壹定解釋性,知識庫就帶有壹種可解釋性。

“通專雖應兼顧,而重心所寄, 應在通而不在專”

以人工智能和大數據為標誌的第四次工業革命到來之際,國內多所高校開始布局人工智能教育。2017年5月,中國科學院大學成立人工智能技術學院,成為我國人工智能技術領域首個全面開展教學和科研工作的新型學院;2018年,上海交通大學與南京大學先後建立了人工智能研究院與人工智能學院,南京大學還招收了首批人工智能專業本科學生。

而作為中國頂尖的高等學府,清華大學對頂尖人才培養壹貫高度重視。2005年設立的計算機科學實驗班(因其創始人、“圖靈獎”唯壹華人獲獎者姚期智而得名“姚班”)是全國乃至全球領先的計算機人才培養的搖籃。壹流的高等教育有責任助力計算機科學和人工智能達至下壹個令人鼓舞的高度,更應該能夠給這個時代帶來顛覆性的影響。

那麽,人工智能本科專業的設置是否必要?人工智能要不要在本科階段就獨立成系?

“清華主要的還是要穩,沒有特殊的需求不要變,壹變反而變亂了,兩撥人可能無序競爭了。” 整體穩定、積極 探索 是清華大學在人工智能本科教育上的方針。

今年,清華大學在“姚班”之外新設立了“智班”,全稱為“清華學堂人工智能班”,在計算機教育結構大體不變的前提下,這個規模不大的實驗班將對人工智能人才、特別是頂尖人才本科階段的培養進行深度 探索 。而人工智能研究院的工作主要定位在研究生階段,特別是博士生階段的培養。

在本中心之前,清華大學陸續成立了人工智能研究院基礎理論研究中心、智能機器人研究中心等七個研究機構。

孫茂松說,這八個中心的核心力量主要對應著人工智能研究的“初心”,也就是研究人的感知和認知。感知最重要的通道是視覺和聽覺,所以設立了視覺智能和聽覺智能中心;而認知體現人的語言、推理、邏輯、學習的能力,所以設立了基礎理論中心、知識智能中心和自然語言處理中心等。再向外 探索 就是智能人機交互與智能多模態信息交互乃至機器人的相關研究,中心和中心之間是緊密聯系、相互合作的。

剛滿壹周歲的清華人工智能研究院已基本實現了“整合力量、統籌安排”的目標。孫茂松表示,接下來的兩個中心會分別以“社交網絡大數據”和“人工智能芯片”為關鍵詞。