文本數據詞袋法向量表示代碼運行結果含義

詞袋模型假如現在有1000篇新聞文檔，把這些文檔拆成壹個個的字，去重後得到3000個字，然後把這3000個字作為字典，進行文本表示的模型，叫做詞袋模型。

1、特點是字典中的字沒有特定的順序，句子的總體結構也被舍棄。

2、詞袋是壹種不保存順序的分詞方法（生成的標記組成壹個集合，而不是壹個序列，舍棄了句子的總體結構），因此它往往被用於淺層的語言處理模型，而不是深度學習模型。在使用輕量級的淺層文本處理模型時（比如 logistic 回歸和隨機森林），n-gram 是壹種功能強大、不可或缺的特征工程工具。