python如何對tfidf計算的權重進行排序

1.用python+selenium解析dom結構，抓取百度|互動百科的文本摘要信息；

2.使用潔霸口吃分詞對中文文本進行分詞，同時插入關於關鍵詞的詞典；

3.scikit-learn計算文本內容的tfidf，構造N*M矩陣(N個文檔，M個特征詞)；

4.然後使用K-means進行文本聚類(省略特征詞降維)；

5.最後對聚類的結果進行簡單的文本處理，用類簇進行分類，還可以計算P/R/F特征值；

6.總結了本文的不足和K-means以及知識圖譜的壹些內容。

相关文章