當前位置:成語大全網 - 新華字典 - python怎樣對tfidf計算出來的權值進行排序'

python怎樣對tfidf計算出來的權值進行排序'

1.使用python+selenium分析dom結構爬取百度|互動百科文本摘要信息;

2.使用jieba結巴分詞對文本進行中文分詞,同時插入字典關於關鍵詞;

3.scikit-learn對文本內容進行tfidf計算並構造N*M矩陣(N個文檔 M個特征詞);

4.再使用K-means進行文本聚類(省略特征詞過來降維過程);

5.最後對聚類的結果進行簡單的文本處理,按類簇歸類,也可以計算P/R/F特征值;

6.總結這篇論文及K-means的缺點及知識圖譜的壹些內容。