當前位置:成語大全網 - 漢語詞典 - python如何對tfidf計算的權重進行排序

python如何對tfidf計算的權重進行排序

1.用python+selenium解析dom結構,抓取百度|互動百科的文本摘要信息;

2.使用潔霸口吃分詞對中文文本進行分詞,同時插入關於關鍵詞的詞典;

3.scikit-learn計算文本內容的tfidf,構造N*M矩陣(N個文檔,M個特征詞);

4.然後使用K-means進行文本聚類(省略特征詞降維);

5.最後對聚類的結果進行簡單的文本處理,用類簇進行分類,還可以計算P/R/F特征值;

6.總結了本文的不足和K-means以及知識圖譜的壹些內容。