因此我要在這裏重點學習壹下。
如果是‘filename’,傳遞給fit的參數序列應該是需要讀取以獲取要分析的原始內容的文件名列表。
如果“file”,序列項必須有壹個“read”方法(類似文件的對象),該方法被調用來獲取內存中的字節。
否則,輸入預期是序列字符串或字節項預期將被直接分析。
如果要解析字節或文件,則使用這個encoding進行解碼。
如果給定壹個字節序列來解析包含不屬於給定編碼的字符,該如何操作的指令。默認情況下,它是“strict”,這意味著將引發壹個UnicodeDecodeError。其他值是“忽略”(ignore)和“替換”(replace)。
在預處理步驟中刪除音標並執行其他字符標準化。“ascii”是壹種只對具有直接ascii映射的字符有效的快速方法。unicode是壹種稍微慢壹點的方法,適用於任何字符。None(默認)什麽也不做。
ascii和unicode都使用來自unicodedata.normalize的NFKD標準化。
在進行tokenizing(令牌化)之前,將所有字符轉換為小寫。
重寫預處理(字符串轉換)階段,同時保留tokenizing(令牌化)和n-gram生成步驟。
重寫字符串切詞的步驟,同時保留預處理和n-gram生成步驟。僅當analyzer == 'word'時才可用。
特征是由單詞還是n-gram的字符組成。
如果傳遞了壹個可調用的函數,它將用於從未經處理的原始輸入中提取壹系列特征(feature)。
如果是字符串,則將其傳遞給_check_stop_list,並返回相應的停止列表。' english '是當前唯壹受支持的字符串值。“english”有幾個已知的問題,妳應該考慮壹個替代(see Using stop words)。言下之意就是過濾全部的英文單詞。
如果是list型,假設list中包含停止詞(stop words),所有停詞將從分詞結果(resulting tokens)中刪除。僅當analyzer == 'word'時才適用。
如果是None,則不使用停止字。max_df可以設置為[0.7,1.0)範圍內的壹個值,根據語料庫內文檔中詞匯的頻率自動檢測和過濾停止詞。
構成壹個“令牌”(token)的正則表達式,僅在analyzer == 'word'時可以使用。默認正則表達式選擇由2個或更多字母數字字符的組成的標記(token)(標點符號完全被忽略,始終被當作令牌(token)分隔符)。
字典型,詞語(terms)到特征索引(feature indices)之間的映射(mapping)。
逆文檔頻率(IDF)向量;只有當use_idf為True時才被定義。
因為如下原因被忽略的詞語:
出現在太多文檔中(max_df)
出現的文檔太少(min_df)
被特征選擇(max_features)截斷。
只有在沒有給出詞匯表的情況下才可以使用。
----------------------------------我是分割線啊---------------------------------------
突然懶得更新了,給壹個今天才發現的網址吧
/feng_zhiyu/article/details/81952697
/binglingzy666/article/details/79241486