自然語言處理的發展歷史

自然語言理解最早的研究工作是機器翻譯。1949年，美國人Weaver首先提出了機器翻譯的設計方案。20世紀60年代，國外有過壹次大規模的機器翻譯研究工作，花了不少錢。但當時人們顯然低估了自然語言的復雜性，語言處理的理論和技術也不熱，所以進展不大。主要方法是存儲兩種語言的單詞和短語的對應翻譯方法的大字典，壹壹對應。從技術上來說，只是調整語言的相同順序。然而，日常生活中語言的翻譯遠非簡單，往往我們要參考壹句話前後的意思。

自20世紀90年代以來，自然語言處理領域發生了巨大的變化。這種變化的兩個明顯特征是:

(1)對於系統的輸入，要求開發的自然語言處理系統能夠處理大規模的真實文本，而不是像以前的研究系統那樣僅僅處理幾個單詞和典型的句子。只有這樣，開發出來的系統才有真正的實用價值。

(2)對於系統的輸出，鑒於真正理解自然語言是非常困難的，不要求系統對自然語言文本有很深的理解，但要能夠從中提取有用的信息。比如針對自然語言文本的索引詞自動提取、過濾、檢索、重要信息自動提取、自動摘要等等。

同時，由於強調“大規模”和“真實文本”，以下兩個方面的基礎工作也得到了重視和加強。

(1)大規模真實語料庫的開發。經過不同深度處理的大規模真實文本語料庫是研究自然語言統計性質的基礎。沒有他們，統計方法只能是無源之水。

(2)大型信息詞典的編纂。擁有數萬、數十萬甚至數十萬個單詞、豐富信息(如單詞的搭配信息)的計算機可用詞典對於自然語言處理非常重要。