from sklearn.feature_extraction.text import TfidfVectorizer

在文本分類之中，首先分詞，然後將分詞之後的文本進行tfidf計算，並向量化（這壹部分是核心），最後利用傳統機器學習算法進行分類就可以了。

因此我要在這裏重點學習壹下。

如果是‘filename’,傳遞給fit的參數序列應該是需要讀取以獲取要分析的原始內容的文件名列表。

如果“file”，序列項必須有壹個“read”方法(類似文件的對象)，該方法被調用來獲取內存中的字節。

否則，輸入預期是序列字符串或字節項預期將被直接分析。

如果要解析字節或文件，則使用這個encoding進行解碼。

如果給定壹個字節序列來解析包含不屬於給定編碼的字符，該如何操作的指令。默認情況下，它是“strict”，這意味著將引發壹個UnicodeDecodeError。其他值是“忽略”（ignore）和“替換”（replace）。

在預處理步驟中刪除音標並執行其他字符標準化。“ascii”是壹種只對具有直接ascii映射的字符有效的快速方法。unicode是壹種稍微慢壹點的方法，適用於任何字符。None(默認)什麽也不做。

ascii和unicode都使用來自unicodedata.normalize的NFKD標準化。

在進行tokenizing（令牌化）之前，將所有字符轉換為小寫。

重寫預處理(字符串轉換)階段，同時保留tokenizing（令牌化）和n-gram生成步驟。

重寫字符串切詞的步驟，同時保留預處理和n-gram生成步驟。僅當analyzer == 'word'時才可用。

特征是由單詞還是n-gram的字符組成。

如果傳遞了壹個可調用的函數，它將用於從未經處理的原始輸入中提取壹系列特征（feature）。

如果是字符串，則將其傳遞給_check_stop_list，並返回相應的停止列表。' english '是當前唯壹受支持的字符串值。“english”有幾個已知的問題，妳應該考慮壹個替代(see Using stop words)。言下之意就是過濾全部的英文單詞。

如果是list型，假設list中包含停止詞（stop words），所有停詞將從分詞結果（resulting tokens）中刪除。僅當analyzer == 'word'時才適用。

如果是None，則不使用停止字。max_df可以設置為[0.7,1.0）範圍內的壹個值，根據語料庫內文檔中詞匯的頻率自動檢測和過濾停止詞。

構成壹個“令牌”（token）的正則表達式，僅在analyzer == 'word'時可以使用。默認正則表達式選擇由2個或更多字母數字字符的組成的標記（token）(標點符號完全被忽略，始終被當作令牌（token）分隔符)。

字典型，詞語（terms）到特征索引（feature indices）之間的映射（mapping）。

逆文檔頻率(IDF)向量;只有當use_idf為True時才被定義。

因為如下原因被忽略的詞語：

出現在太多文檔中(max_df)

出現的文檔太少(min_df)

被特征選擇(max_features)截斷。

只有在沒有給出詞匯表的情況下才可以使用。

----------------------------------我是分割線啊---------------------------------------

突然懶得更新了，給壹個今天才發現的網址吧

/feng_zhiyu/article/details/81952697

/binglingzy666/article/details/79241486