導入收藏
進口熊貓作為pd
從sk learn . feature _ extraction . text導入TfidfVectorizer,CountVectorizer
#為避免出現問題,請使用文件名的完整路徑。
data = pd.read_csv('XXX.csv ')
trainheadlines = []
對於範圍(0,len(data.index))中的行:
trainheadlines.append(')。join(str(x) for x in data.iloc[row,m:n]))
#上面的m:n代表哪壹列,或者哪些列。
advanced vectorizer = tfidf vectorizer(
min_df=0,max_df=1,max_features=20000,ngram_range=(1,1))
advanced train = advanced vector izer . fit _ transform(train headlines)
打印(advancedtrain.shape)