為了更深入的了解NLP在中國的發展現狀和前景,CCF在NLP方向的努力以及NLPCC大會的發展,雷鋒網。com采訪了CCF中文信息技術委員會主任、微軟亞洲研究院副院長周明(兼任中國中文信息學會(CIPS)常務理事、國際計算語言學會ACL候任主席)、北京大學趙東燕教授、CCF中文信息技術委員會秘書長(雷鋒com稍後會報道)。
本文的主要內容是周明博士從CCF中文信息技術委員會的角度深入介紹了自然語言處理的研究進展以及自然語言處理在中國的發展現狀和前景。他的開場白如下:
目前,各國政府(包括美國、德國、日本、中國等。)都在做壹些人工智能的規劃,但是中國對人工智能的規劃是最清晰的。結合國務院《中國人工智能發展規劃》(2017年7月)和總書記十九大報告(2017年10年7月),我們可以看到,我國規劃了人工智能發展的兩個階段,第壹階段是2020年進入世界先進水平,第二階段是2030年。
我們國內的自然語言處理和國家對人工智能的規劃基本同步。換句話說,我們將在2020年達到世界先進水平,並有望在2030年達到世界頂級水平。
高級和頂級的區別有多大?先進水平就是妳跟著世界上最發達的國家走,妳掌握了所有的關鍵技術,但妳不是關鍵技術的發起者,也就是妳不是領導者;頂層其實就是妳在引領,妳告訴世界往哪個方向走,妳提出壹個關鍵的理論模型,別人在跟著妳走。這就是區別。
在NLP領域,中國現在是非常好的跟隨者。壹旦世界上(主要是美國)出現任何技術,我們馬上學會掌握並迅速應用,不比美國差。現在不同的是,我們不是第壹個提出這個技術和方法的。所以我們CCF中文信息技術委員會認為我們現在基本處於世界先進水平,三年後也就是2020年將達到世界先進水平。在此基礎上,我們預計2030年達到世界頂級水平。這是我們的願景。
以下是周明博士的深入解釋。雷鋒。com在不改變初衷的情況下,對采訪內容進行了簡化編輯,為讀者奉上晚餐。
首先,自然語言處理是認知智能的核心
雷鋒。com:NLP在整個AI領域的地位如何?
周明:近年來,由於大計算、大數據、算法模型(以深度學習為代表)、落地場景四大要素,人工智能進入快速發展期。其主要發展方向:知覺智能和認知智能。
所謂感知智能,就是視覺(圖像)、聽覺(聲音)等感知能力。大家都知道感知智能在突飛猛進,比如針對圖像識別的ImageNet評測和針對語音識別的Switchboard評測,在這個測試集中已經達到甚至超過了人類的水平。該領域的研究進展也促進了許多應用的發展,如安全、人臉識別、物體檢測,以及語音識別在手機、智能家居等設備中的應用。
認知智能,壹般來說,就是“能夠理解和思考”。認知智能有很多東西,其核心包括語言智能、知識圖譜、用戶畫像等等。在此基礎上,支持智能寫作、聊天、詩歌創作、文字生成、遊戲等幾個應用。有的做的不錯,比如以AlphaGo為代表的遊戲系統;但是有些並不令人滿意。目前認知智能在引入深度學習方面已經落後於感知智能,但處於追趕狀態。比如神經機器翻譯質量越來越好,聊天系統和人機對話越來越好。
自然語言理解是認知智能的核心。它的進步會帶動知識圖譜的進步,用戶理解能力的增強,整體推理能力的進壹步提升。在這個基礎上,聊天、解題、翻譯、對話也會有所提高。壹旦認知智能進步,再加上感知智能的進步,整體人工智能會進壹步發展。
比爾·蓋茨曾經說過“語言理解是人工智能皇冠上的明珠”,沈向洋博士也說過“得懂語言者得天下”,這些都強調了NLP的重要性。自然語言處理技術將推動人工智能的整體進步,使人工智能技術能夠投入實際應用。
二、NLP未來五到十年的發展
雷鋒網:NLP未來五到十年將如何發展?
周明:大致有幾個方向:1)問答和閱讀理解的進步會讓搜索引擎更加精準;2)語音識別和神經機器翻譯將使口語機器翻譯完全實用化;3)由於用戶畫像的準確性和實時性的提高,促使信息服務和廣告更加自然、友好和個性化;4)提高聊天、問答、對話的技巧,促進自然語言對話實用化;5)由於對話技術和知識圖譜的進步,智能客服和人工客服更加完美的結合在壹起,大大提高了客服效率;6)由於自然語言生成技術的進步,自動寫詩、作文、自動生成新聞甚至小說都會普及;7)人機對話的進步推動語音助手、物聯網、智能硬件、智能家居的普及;8)最後是NLP+,即NLP廣泛應用於金融、法律、教育、醫療等垂直領域。
以搜索引擎的智能化為例。以前的搜索引擎,輸入關鍵詞會返回壹堆東西,需要妳自己去看。隨著自動問答、閱讀理解等能力的提升,現在的搜索引擎可以問壹個問題,句子壹點都不怕。它可以分析這個問題,並從浩如煙海的文檔中找出答案。即使它不只是給妳壹個文檔鏈接,它也可以直接給妳答案,搜索引擎的結果越來越準確。
雷鋒。com:NLP研究未來應該關註哪些方向?
周明:我個人比較在意以下幾點:1)通過用戶畫像的個性化服務;2)通過可解釋學習洞察人工智能的機制;3)通過知識和深度學習的結合,提高學習效率;4)通過遷移學習實現領域適應;5)通過強化學習實現持續進化;6)通過無監督學習,充分利用未標記數據;7)多媒體和多模態之間的理解、問答和轉換。
第三,中國的NLP研究排名世界第二
雷鋒。com:目前中國在NLP領域的發展現狀如何?
周明:NLP在中國的發展有兩個方面,壹個是科研水平,另壹個是產業化。在NLP產業化方面,中國做得很好。比如在搜索引擎、電子商務、新聞網站、機器翻譯、智能音箱的技術體系中,NLP占據核心地位。我將重點介紹NLP在中國的科研水平。
以ACL為例。ACL是國際上自然語言處理領域的最高學術會議。大約20年前,中國還沒有ACL的文章。1998,清華大學黃長寧教授課題組發表了第壹篇ACL文章。當時中國在NLP方向的研究基礎薄弱,日本、韓國甚至中國臺灣省和香港發表的關於ACL的文章都比中國大陸多得多。
微軟中國研究院(註:後更名為微軟亞洲研究院)成立於6月1998 11,極大地推動了NLP在中國的發展。歷屆院長都號召大家走向國際,鼓勵研究院的研究人員與大學和相關學會合作,這樣我們就可以共同努力推動國內的研究水平。微軟研究院通過聯合實驗室、暑期學校和實習項目,幫助中國培養了大量NLP人才。
與此同時,CIPS、CCF等學會組織了各種研討會和學術會議,引進了國際先進的理論和技術,極大地促進了當地自然語言處理水平的提高。在文章發表方面,中國的NLP人也在不斷努力提高自己在ACL的影響力。中國政府通過自然科學基金、863和973計劃加強了對自然語言處理領域的投入和引導。通過社會各界的努力,經過近20年左右的快速發展,中國已經成為ACL第二的國家。
近五年,中國關於ACL的文章數量(包括長文和短文)排名第二,僅次於美國。長文方面,距離美國大概20到30篇;同時也遙遙領先於其他所有國家,包括日本、韓國、德國、英國等等。原來中國跟不上這些國家。如果未來中國的ACL長文數量繼續增加,三年內趕上美國是有可能的。因為NLP在中國的發展勢頭很好,這是壹個預期的目標。
中文文章方面,2014年,中文第壹作者文章占ACL總文章的36%,之後逐年上升。今年是40%,很多都是除中國以外的在華留學生。
從以上數字來看,中國的ACL文章確實已經躍居世界前列。這是壹個非常令人驚訝的結果。20年前中國只有壹篇ACL文章,現在世界排名第二。
除了文章數量,中國的ACL文章質量也有了很大的提升。比如ACL 2017的22篇優秀論文中,就有5篇來自中國的文章上榜。
中國在國際活動中越來越活躍。例如,ACL執委會有65,438+03名執委會成員,其中3名來自中國,有來自百度的趙和我。我是ACL的候選主席(註:我將於2019上任),趙是秘書長,來自臺灣省的是首席IT官。
此外,來自中國的贊助商總數和贊助人數也接近美國;從參與人數來看,我們也排第二。
NLP領域的其他重要會議,如COLING或EMNLP,也類似。
所以中國是NLP第二強國。
基督教兒童基金在這方面做出了很多貢獻。CCF中文信息技術委員會組織了NLPCC、ADL講座等學術會議和多項進大學活動。在NLPCC大會上,專門組織了壹個學生工作坊,教學生如何做研究和寫論文。基督教兒童基金還與CIPS密切合作,輪流主辦語言與智力峰會。本次峰會有效推動了NLP領域的發展,提升了其在社會中的影響力。
當然,我們還有壹些問題需要改進。這表現在:1)國內舉辦的NLP領域的國際會議或活動很少;2)來自中國的ACL成員較少;3)在國際NLP大會中,來自中國的特邀報告、最佳論文、SIG主席、工作坊主席、輔導演講嘉賓很少;4)雖然來自中國的論文數量排名第二,但很多都或多或少在跟著別人的口味走。預計來自中國的文章將更多地反映未來的領先趨勢。
第四,NLP在中國迅速崛起的原因
雷鋒。com:是什麽因素導致了NLP在中國的快速進步?
周明:?第壹,整個國家無論是工農業,還是國民經濟,還是綜合國力,都在呈上升趨勢發展。第二,我們與國際社會的融合越來越好。比如我們NLPCC大會的工作語言是英語,大會主席、節目委員會主席、各領域主席都有兩個聯合主席,壹個來自國內,壹個來自國外。再次,國內的大學和公司通過培養和引進,吸收了大量優秀的NLP人才。
特別要提壹下國外公司和國內互聯網公司對ACL的貢獻。例如,微軟亞洲研究院與中國和亞洲的多所大學進行了全方位的合作,包括在暑期學校和實驗室聯合培養博士生和實習生,培養了大量的NLP人才。例如,從65438年到2008年,微軟研究院在NLP領域培養了多達450名實習生。這些人來自全國各地。在微軟實習後,他們回到各個高校,然後加入公司或學校成為領導任務,進而帶動下壹波人才的成長,不斷推動這個領域的發展。
需要指出的是,百度、阿裏、騰訊、JD.COM、今日頭條等大型互聯網公司,以及眾多新銳公司(如Mobvoi、郭爽、奇點機智、小牛翻譯、思必馳、新華智雲等)也在各個方面為NLP在中國的發展做出了巨大貢獻。我代表CCF非常感謝這些國內外企業為NLP的發展和進步做出的貢獻。
雷鋒。com:日本、韓國等國家在NLP領域的發展早於中國。為什麽他們現在落後於中國?
周明:我認為有幾個因素。第壹個因素是中國在互聯網時代抓住了中國互聯網的發展和機遇,而其他很多國家在互聯網方面(尤其是移動互聯網、電子商務、搜索等方面)相對落後。).例如,許多國家沒有自己的搜索引擎,但中國有很多,如百度、搜狗和微軟的本地化搜索引擎必應。搜索引擎對自然語言有很大的推動作用,因為它對問題理解、文章理解、問答、翻譯的需求推動了相關NLP技術的發展。同時,其巨大的經濟價值吸引了許多人投入到這壹領域的研究和產業化中。壹個沒有搜索引擎的國家,自然會在NLP上落後。
另壹個因素是數據。中國擁有世界上最大的數據,超過8億的移動互聯網用戶和大量的電子商務數據,這將有助於研究和技術的發展。
第三是政府在這方面的作用。國家在世界經濟鏈條中的位置,將導致其在互聯網和移動互聯網時代,尤其是當前人工智能時代的地位。由於中國現在是GDP第二大國,在互聯網時代,尤其是移動互聯網時代,趕上了這個潮流,中國甚至引領了潮流。中國政府已經制定了相關計劃來支持和引導技術和產業的發展。因此,預計在人工智能時代,中國將超過其他國家,成為人工智能頂級發達國家。與人工智能相關的研究也將得到相應的推動,包括NLP。
雷鋒。com:除了中國和美國,哪些國家在NLP方面做得比較好?
周明:根據ACL,美國、中國、英國、德國、日本、韓國和加拿大都有自己的特點。英國的愛丁堡大學和牛津大學在自然語言研究方面有很好的特色。
NLP在加拿大也有很好的發展。雖然中國從事自然語言的人相對較少,僅北京從事NLP的人就遠遠多於加拿大整體,但它提出了很多領先世界的方法,比如神經機器翻譯和機器閱讀理解的新方法。在理論創新上值得中國借鑒。
動詞 (verb的縮寫)如何成為壹個強大的NLP國家
雷鋒。com:中國下壹步應該如何提高在NLP方面的研究或應用?
周明:這取決於幾個方面。
首先,我認為我們應該抓住中國發展的機遇。1)數字化改造。現在中國講究數字化轉型,所有的企業和行業都要數字化。只有數字化,才能有人工智能。但是很多企業連數字化都沒有做好,所以這裏機會很多。2)AI熱潮。AI熱潮帶動市場投資需求,人才和數據進壹步發展。這是壹個非常好的機會,所有從事NLP的人都應該順勢而為。
二要做好普及工作。雖然國內從事NLP的高校很多,但是很多還是比較落後,對最新技術了解不夠,很多高校(尤其是西部的)基礎比較薄弱,要做好普及工作。CCF委員會有壹個專門的工作組,叫“進高校組”。為了響應CCF的號召,我們自然語言學家也進入了大學。我們去了很多高校(比如西藏大學)講授人工智能,自然語言的發展和最新的技術,號召更多的學生學習人工智能和自然語言。
雷鋒網註:微信官方賬號(ID: A ItechTalk)壹篇有代表性的AI文章的閱讀分布在西部地區始終處於兩位數(甚至個位數)的狀態。這也在壹定程度上反映了國內AI工作者的分布情況。
第三,吸引和培養拔尖人才。首先,吸引國際頂尖人才來華,通過回國開會或合作了解中國的發展現狀,加強與國內高校和企業的交流。最後,希望有壹部分人才被國內發展機會吸引,留下來。此外,更重要的是,通過學校的學位培養模式和公司的實習渠道,培養更多理論基礎紮實、實踐經驗豐富的優秀人才,甚至是高層次的領軍人才。
第四,推動我們在中國研究的國際化。包括由基督教兒童基金管理的NLPCC。在過去的幾年裏,它壹直在中國舉行。未來,我們還會考慮在新加坡、日本、韓國甚至美國舉辦會議,把我們中國本土的研究推向世界,尤其是引領國際中文計算領域的潮流。
第五,加強創新。包括1)。比如開發無監督的機器學習算法,利用上下文和用戶畫像增強NLP任務建模,整合知識和數據提高NLP系統的能力。2)開辟跨學科的新領域,如NLP和圖像與視頻的交叉。還有對NLP在重要垂直領域的廣泛應用的深入研究;3)產品創新,通過軟硬件結合,結合具體場景,提升用戶體驗。
第六,要重視數據和工具,重視評價。CCF和我們的中國計算委員會已經建立了壹個數據工作組來共享數據,用於使用、培訓和評估。比如NLPCC2017已經吸引了很多學校和公司參與到詞匯和語音關系識別、短文本分類、單文檔摘要、問答和用戶畫像等領域。
第七,推進產學研大合作。通過CCF等平臺,吸引產業界人士加入我們的研究過程,通過各種合作促進公司的產業發展,以及高校的學術發展。
最後,中國應該考慮在國際會議和組織中發揮更大的影響力。包括組織和承辦世界壹流的會議,爭取成為世界壹流學會的執委會委員、總會主席、計劃委員會主席、領域主席,更多發揮中國的影響力。
需要指出的是,盡管中國自然語言處理發展勢頭良好,但我們仍然面臨許多困難。需要政府、學校、科研機構、公司、相關社團和社會各界人士的不斷努力。特別是加強理論創新,探索交叉學科和垂直領域的新機遇,可以逐漸從追隨者過渡到領導者。我相信,如果這些措施都能夠得到很好的落實,中國的NLP在下壹步壹定會穩步向更高的目標發展,並最終躋身世界頂級NLP水平。