2.使用jieba結巴分詞對文本進行中文分詞,同時插入字典關於關鍵詞;
3.scikit-learn對文本內容進行tfidf計算並構造N*M矩陣(N個文檔 M個特征詞);
4.再使用K-means進行文本聚類(省略特征詞過來降維過程);
5.最後對聚類的結果進行簡單的文本處理,按類簇歸類,也可以計算P/R/F特征值;
6.總結這篇論文及K-means的缺點及知識圖譜的壹些內容。