2.使用潔霸口吃分詞對中文文本進行分詞,同時插入關於關鍵詞的詞典;
3.scikit-learn計算文本內容的tfidf,構造N*M矩陣(N個文檔,M個特征詞);
4.然後使用K-means進行文本聚類(省略特征詞降維);
5.最後對聚類的結果進行簡單的文本處理,用類簇進行分類,還可以計算P/R/F特征值;
6.總結了本文的不足和K-means以及知識圖譜的壹些內容。