python怎樣對tfidf計算出來的權值進行排序'

1.使用python+selenium分析dom結構爬取百度|互動百科文本摘要信息；

2.使用jieba結巴分詞對文本進行中文分詞，同時插入字典關於關鍵詞；

3.scikit-learn對文本內容進行tfidf計算並構造N*M矩陣(N個文檔 M個特征詞)；

4.再使用K-means進行文本聚類(省略特征詞過來降維過程);

5.最後對聚類的結果進行簡單的文本處理，按類簇歸類，也可以計算P/R/F特征值；

6.總結這篇論文及K-means的缺點及知識圖譜的壹些內容。

相关文章