當前位置:成語大全網 - 英語詞典 - 用Py 5進行文本分析:關鍵詞提取

用Py 5進行文本分析:關鍵詞提取

關鍵詞是指原始文檔的核心信息,關鍵詞提取在文本聚類、分類、自動摘要等領域有著重要的作用。

對於壹個段落,在沒有人工幹預的情況下提取關鍵詞。

無監督學習——基於詞頻

思路1:按詞頻提取單詞。

想法2:根據術語在文檔中的重要性提取術語。

IF-IDF是信息檢索中最常用的文本關鍵信息表示。其基本思想是,如果壹個詞在壹個文檔中頻繁出現,而在語料庫中的其他文檔中很少出現,則認為該詞具有良好的分類能力。

Tf: $ term頻率,衡量壹個$ term在文檔中出現的頻率。壹般來說,單詞出現得越頻繁,其重要性可能越高。考慮到文章長度的差異,有必要規範詞頻:

IDF:逆文檔頻率,逆文檔概率,用於模擬目標$ term在語料庫實際使用環境中的重要性。

TF-IDF:TF*IDF

優勢:

(1)街霸

(2)sklearn

(3)gensim

上面說的TF-IDF屬於基於詞頻的無監督算法,TextRank算法是基於圖的算法。

TextRank算法的思想來源於PageRank算法:

與基於詞頻的算法相比,TextRank進壹步考慮了文檔中術語之間的語義關系。

參考資料:

Python數據分析-玩文本挖掘