要將自然語言交給機器學習中的算法來處理,通常需要首先將語言數學化,詞向量就是用來將語言中的詞進行數學化的壹種方式。壹種最簡單的詞向量方式是one-hotrepresentation,就是用壹個很長的向量來表示壹個詞,向量的長度為詞典的大小,向量的分量只有壹個1,其他全為0,1的位置對應該詞在詞典中的位置。但這種詞表示有兩個缺點:容易受維數災難的困擾,尤其是將其用於DeepLearning的壹些算法時;不能很好地刻畫詞與詞之間的相似性(術語好像叫做“詞匯鴻溝”)。另壹種就是妳提到DistributedRepresentation這種表示,它最早是Hinton於1986年提出的,可以克服one-hotrepresentation的缺點。其基本想法是:通過訓練將某種語言中的每壹個詞映射成壹個固定長度的短向量(當然這裏的“短”是相對於one-hotrepresentation的“長”而言的),將所有這些向量放在壹起形成壹個詞向量空間,而每壹向量則為該空間中的壹個點,在這個空間上引入“距離”,則可以根據詞之間的距離來判斷它們之間的(詞法、語義上的)相似性了。