· 這壹工程最初的前提之壹是“可分離性假設”(Separability hypothesis),即語言的詞匯成分可以被離析出來並專門針對它加以研究。詞匯編纂學的歷史明確地告訴我們,在詞語水平上可以得到有用的研究成果。詞庫(詞典,lexicon)當然不是完全獨立於其他語言成分的,但它的確是可以從其他成分中分離出來的。例如,盡管語音和語法知識在壹個人的早年生活中就成型了,但詞匯量卻可以隨著智力活動的不斷積累而增加。這表明語言的不同成分涉及不同的認知過程。
· 另壹個前提是“模式假設”(patterning hypothesis):壹個人不可能掌握他運用壹種語言所需的所有詞匯,除非他能夠利用詞義中存在的系統的模式和詞義之間的關系。這種系統化的心智模式至少從柏拉圖時代就成為壹種進行推測的學問,現代語言學研究開始在自然語言的語義結構中識別這樣的模式。但許多遵循這類路線的出色的研究工作在這壹問題上碰到了困難。壹個作者可能提出壹種語義理論,並以20到50個英語單詞為例來展示他的理論,而留下另外10萬個單詞讓讀者去做練習。
· 第三個前提就是所謂的“廣泛性假設”(comprehensiveness hypothesis):計算語言學如果希望能像人那樣處理自然語言,就需要像人那樣儲存盡可能多的詞匯知識。
· 建立包含詞語意義描述的大規模詞庫的方式之壹是基於語義成分分析的詞匯語義學(componential lexical semantics)的方法(也可譯為義素分析法)。這種方式把壹個詞的意義分析為更小的概念原子的組合。不過,定義壹套概念原子卻非易事。事實上,WordNet主帥George.A.Miller在1976年他與Philip N. Johnson-Laird合作的《Language and Perception》壹書中還躊躇滿誌地探索義素分析的語義描寫方法,但直到1985年,仍然沒有能夠出籠壹個完整的定義清晰的清單,在上面列舉出所有的概念原子。
· 到1985年,許多認知心理學家和計算語言學家開始以“網”的形式來描述詞語的意義。比如:“桌子”(table)和“家具”(furniture)代表兩個節點(node),而這兩個節點之間有壹個箭頭(dart)來表示這樣的命題:桌子是壹種家具(a table is a kind of furniture),即“Is-A-KIND-OF”這樣的語義關系。隨著這方面研究的增多,越來越多的人自覺地意識到:除了利用語義成分(義素分析法)表示語義,還可以利用關系來表示語義(基於關系的詞匯語義學relational lexical semantics),而且後者有可能替代前者。
· 在WordNet的早期階段,研究人員主要是在考慮用關系語義來描述詞義的方式是否能夠大規模地廣泛使用,而不是僅僅停留在玩具式的演示水平上。到了研究人員確信這是可行的的時候,他們就編制了應用軟件來把想法變成現實。實際上,在早期,Miller並沒有關於構建壹個大詞庫的完整想法。初步設想是識別由字符串組成的最重要的詞節點,並探索其中的語義關系模式。當時的想法是,如果得到了正確的語義關系模式,詞語的定義就能從中推理出來,因此,對於壹個有關詞義的關系網來說,詞義的定義是多余的。
· 在1978年的時候,Miller描述了壹種“自動化詞典”(automated dictionary)的想法。不過那時候他完全不知道該如何實現這種想法。由於Sloan基金會,Spencer基金會,IBM公司沃盛研究中心(Watson Research Center)的支持,Miller得以壹直保持著他的想法,而沒有中途放棄。到1984年的時候,Miller甚至在IBM PC機上做出了45個名詞的小型語義網,他把這個小網叫做“word net”。Miller在IBM和Bellcore演示了這個示例成果。他在Bellcore的壹幫好友,Lance Miller, Roy Byrd, Michael Lesk, Donald Walker, Robert Amsler, 以及Stephen Hanson都鼓勵他繼續下去,並在技術上給予許多實際指導。
· Lesk邀請Miller參加了1985年11月在加拿大沃太盧(Waterloo)大學新牛津英語詞典中心的第壹次會議。Miller提交了壹篇論文。Miller在那篇論文中解釋這樣的思想:我們可以使用同義詞集合(synset)來代表詞匯概念,並描述詞匯矩陣,即在詞的形式和意義之間建立起映射關系(mapping)。實際上,這正是在WordNet的發展中指導研究工作的主要思想。
·