自20世紀90年代以來,自然語言處理領域發生了巨大的變化。這種變化的兩個明顯特征是:
(1)對於系統的輸入,要求開發的自然語言處理系統能夠處理大規模的真實文本,而不是像以前的研究系統那樣僅僅處理幾個單詞和典型的句子。只有這樣,開發出來的系統才有真正的實用價值。
(2)對於系統的輸出,鑒於真正理解自然語言是非常困難的,不要求系統對自然語言文本有很深的理解,但要能夠從中提取有用的信息。比如針對自然語言文本的索引詞自動提取、過濾、檢索、重要信息自動提取、自動摘要等等。
同時,由於強調“大規模”和“真實文本”,以下兩個方面的基礎工作也得到了重視和加強。
(1)大規模真實語料庫的開發。經過不同深度處理的大規模真實文本語料庫是研究自然語言統計性質的基礎。沒有他們,統計方法只能是無源之水。
(2)大型信息詞典的編纂。擁有數萬、數十萬甚至數十萬個單詞、豐富信息(如單詞的搭配信息)的計算機可用詞典對於自然語言處理非常重要。
害怕那些人。
小溪流向河流,因為它畏懼河流的浩瀚;小草仰望大樹,因為它畏懼大樹的挺拔;小鳥羨慕老鷹,因為它害怕老鷹在天空中的打擊。我敬畏那些品格高尚、內心純真、獨壹無二的人,因為他們是社會的張揚,是我們引以為傲的榜樣。
我對司馬遷肅然起敬,面對妻離子散的屈辱,我還在努力寫書。壹般人遭受宮刑壹定很心痛,但是司馬遷卻忍辱負重,收集了大量文獻,潛心研究自己的作品