對於壹個段落,在沒有人工幹預的情況下提取關鍵詞。
無監督學習——基於詞頻
思路1:按詞頻提取單詞。
想法2:根據術語在文檔中的重要性提取術語。
IF-IDF是信息檢索中最常用的文本關鍵信息表示。其基本思想是,如果壹個詞在壹個文檔中頻繁出現,而在語料庫中的其他文檔中很少出現,則認為該詞具有良好的分類能力。
Tf: $ term頻率,衡量壹個$ term在文檔中出現的頻率。壹般來說,單詞出現得越頻繁,其重要性可能越高。考慮到文章長度的差異,有必要規範詞頻:
IDF:逆文檔頻率,逆文檔概率,用於模擬目標$ term在語料庫實際使用環境中的重要性。
TF-IDF:TF*IDF
優勢:
(1)街霸
(2)sklearn
(3)gensim
上面說的TF-IDF屬於基於詞頻的無監督算法,TextRank算法是基於圖的算法。
TextRank算法的思想來源於PageRank算法:
與基於詞頻的算法相比,TextRank進壹步考慮了文檔中術語之間的語義關系。
參考資料:
Python數據分析-玩文本挖掘