詞向量工作原理是什麽

要將自然語言交給機器學習中的算法來處理，通常需要首先將語言數學化，詞向量就是用來將語言中的詞進行數學化的壹種方式。壹種最簡單的詞向量方式是one-hotrepresentation，就是用壹個很長的向量來表示壹個詞，向量的長度為詞典的大小，向量的分量只有壹個1，其他全為0，1的位置對應該詞在詞典中的位置。但這種詞表示有兩個缺點：容易受維數災難的困擾，尤其是將其用於DeepLearning的壹些算法時；不能很好地刻畫詞與詞之間的相似性（術語好像叫做“詞匯鴻溝”）。另壹種就是妳提到DistributedRepresentation這種表示，它最早是Hinton於1986年提出的，可以克服one-hotrepresentation的缺點。其基本想法是：通過訓練將某種語言中的每壹個詞映射成壹個固定長度的短向量（當然這裏的“短”是相對於one-hotrepresentation的“長”而言的），將所有這些向量放在壹起形成壹個詞向量空間，而每壹向量則為該空間中的壹個點，在這個空間上引入“距離”，則可以根據詞之間的距離來判斷它們之間的（詞法、語義上的）相似性了。