當前位置:成語大全網 - 英語詞典 - 中文短句相似度匹配方法?

中文短句相似度匹配方法?

壹、原始落後的VSM

網上搜索關鍵詞“短文本 相似度”,出來的結果基本上都是以BOW(Bag of words)的VSM方案,大致流程如下:

分詞 —> 提取關鍵詞 —> 計算tf或if-idf,以向量的形式替換原文本 —> 文本相似度的問題轉變為計算向量相似度

壹開始這樣的壹個思路,很清晰明了,而且網上相應的資料也很多,然後就開搞吧。

1、把所有短文本去掉標點符號,用jieba分詞分好詞,去除停用詞,得到分好的文本;

2、按壹定規則抽取特征詞匯,作為後期向量的每壹維;

3、用sklearn庫中的原生方法CountVectorizer、TfidfVectorizer等得到矩陣;

4、每個短文本計算對應得到的向量,采用K-Means聚類的方法進行非監督學習。

文本分類的大致思路基本上就如上所述,具體的細節調整就視實際情況而定。然而,想法是美好的,現實是殘酷的,全部分好詞的文本,抽取的特征詞較多,即向量的維度較大,且向量是稀疏的,在使用K-Means時,會出現有個別cluster下的文本數量特別大;