2.信息提取:從給定的文本中提取重要信息,如時間、地點、人物、事件、原因、結果、數字、日期、貨幣、專有名詞等。壹般來說,就是知道誰什麽時候做了什麽,為什麽做,對誰做,結果是什麽。它涉及到實體識別、時間抽取、因果關系抽取等關鍵技術。
3.文本挖掘(或文本數據挖掘):包括文本聚類、分類、信息抽取、摘要、情感分析以及對挖掘出的信息和知識的可視化和交互式表達界面。目前主流技術是基於統計機器學習。
4.機器翻譯:自動將輸入的源語言文本翻譯成另壹種語言文本。根據輸入媒體的不同,可以細分為文字翻譯、語音翻譯、手語翻譯、圖形翻譯等。從最早的基於規則的方法到二十年前的統計方法,再到今天的神經網絡(編碼-解碼)方法,機器翻譯逐漸形成了壹套較為嚴謹的方法體系。
5.信息檢索:索引大型文檔。我們可以簡單的給文檔中的詞賦予不同的權重來建立索引,也可以使用1,2,3的技術來建立更深層次的索引。查詢時,先對輸入的查詢表達式,如搜索詞或句子進行分析,然後在索引中找到匹配的候選文檔,再根據排序機制對候選文檔進行排序,最後輸出排名得分最高的文檔。
6.問答系統:用自然語言表達的問題,由問答系統給出準確的答案。需要對自然語言查詢語句進行壹些語義分析,包括實體鏈接和關系識別,形成邏輯表達式,然後在知識庫中尋找可能的候選答案,通過壹種排序機制找到最佳答案。
7.對話系統:系統通過壹系列對話與用戶聊天,回答,完成某項任務。涉及用戶意圖理解、通用聊天引擎、問答引擎、對話管理等技術。此外,為了體現語境相關性,需要具備多輪對話的能力。同時,為了體現個性化,需要開發用戶畫像,以及基於用戶畫像的個性化回復。
隨著深度學習在圖像識別、語音識別等領域的發展,人們對深度學習在自然語言處理中的價值寄予厚望。再加上AlphaGo的成功,人工智能的研究和應用變得火熱起來。作為人工智能領域中的認知智能,自然語言處理已經成為人們關註的焦點。很多企業都在進入自然語言領域,希望未來在人工智能方向大顯身手。
自然語言處理(簡稱NLP)是研究計算機處理人類語言的技術。