當前位置:成語大全網 - 成語詞典 - 語義相似度

語義相似度

壹、語義相似度的簡介

在很多情況下,直接計算詞語之間的相似度非常的困哪,壹般情況下,先計算詞語之間的距離,再轉換為相似度。

語義之間的距離,通常有兩種計算方式,壹種是通過大量的語料庫進行統計,壹種是根據某種本體或分類關系。

利用大規模的語料庫進行統計,這種基於統計的方法主要將上下文信息的概率分布作為詞匯語義相似度的參照依據。基於統計的詞語語義相似度計算方法是壹種經驗主義方法,它把詞語相似度的研究建立在可觀察的語言事實上。它是建立在兩個詞語語義相似當且僅當它們處於相似的上下文環境中的這壹假設的基礎上。它利用大規模語料庫,將詞語的上下文信息作為語義相似度計算的參照依據。基於統計的定量分析方法能夠對詞匯間的語義相似性進行比較精確和有效的度量,但是這種方法比較依賴於訓練所用的語料庫,計算量大,計算方法復雜,另外,受數據稀疏和數據噪聲的幹擾較大,有時會出現明顯的錯誤。

根據本體或分類關系計算詞語語義距離的方法,壹般是利用壹部同義詞詞典。壹般同義詞詞典都是將所有的詞組織在壹棵或幾棵樹狀的層次結構中。在壹棵樹狀圖中,任何結點之間有且只有壹條路徑,於是這條路徑的長度就可以作為這兩個概念的語義距離的壹種度量。有些研究者考慮的情況更復雜。除了節點件的路徑長度外,還考慮到了其它壹些因素。如:概念層次樹的深度,概念層次樹的區域密度等等。基於本體或分類關系的計算方法比較簡單有效,無需用語料庫進行訓練,也比較直觀,易於理解,但這種方法得到的結果受人的主觀意識影響較大,有時並不能準確反映客觀事實。

二、基於WordNet語義相似度算法研究

? WordNet中的概念是由概念間關系連接在壹起的,每個概念都通過關系和其他概念相連,而整個WordNet則是由概念和關系組成的巨大的網絡。最上面圖是WordNet中部分概念網絡結構圖。

? 下圖是以"car"和“bag”為主體的概念,得到is_a關系樹狀分類圖