當前位置:成語大全網 - 漢語詞典 - Python編程實現csv文件中某壹列的詞頻統計

Python編程實現csv文件中某壹列的詞頻統計

進口re

導入收藏

進口熊貓作為pd

從sk learn . feature _ extraction . text導入TfidfVectorizer,CountVectorizer

#為避免出現問題,請使用文件名的完整路徑。

data = pd.read_csv('XXX.csv ')

trainheadlines = []

對於範圍(0,len(data.index))中的行:

trainheadlines.append(')。join(str(x) for x in data.iloc[row,m:n]))

#上面的m:n代表哪壹列,或者哪些列。

advanced vectorizer = tfidf vectorizer(

min_df=0,max_df=1,max_features=20000,ngram_range=(1,1))

advanced train = advanced vector izer . fit _ transform(train headlines)

打印(advancedtrain.shape)