當前位置:成語大全網 - 成語詞典 - 數據挖掘之同義詞挖掘

數據挖掘之同義詞挖掘

在搜索過程中,需要使用同義詞來達到提高召回的目的,例如用戶搜索:口紅,但是商品名稱卻不含口紅關鍵詞,比如商品名為:xxx彩色唇膏。但其實兩個詞是指代同壹產品。那麽在用戶搜索的時候,就搜不到對應的產品。這時可以 同義詞詞典來解決這個問題,使用Elasticsearch做搜索引擎,在query和索引數據時,先將query和doc分詞,然後使用同義詞替換,將特定詞替換成同義詞索引。

如:同義詞詞典 口紅 => 彩色唇膏 彩色唇蜜

那麽問題又來了?同義詞詞典怎麽構建呢?

首先,很多人會想到使用word2vec來挖掘同義詞,實際上根據word2vec的原理可知,其挖掘的topK相近詞其實是基於 ***現關系的相關詞,並不是只有近義詞,因此會出現很大的噪聲。

使用word2vec挖掘

如上所示,雖然富裕的相近詞,富有,富足有返回,但是窮困,平窮也有返回,詞義恰恰是反義詞,因此使用完全無監督的word2vec挖掘近義詞效果並不好。

關於word2vec挖掘同義詞還有兩個思路。

參考:

/p/33942535

/question/40777785/answer/88189037

/info-detail-2486542.html