當前位置:成語大全網 - 新華字典 - 文本數據詞袋法向量表示代碼運行結果含義

文本數據詞袋法向量表示代碼運行結果含義

詞袋模型假如現在有1000篇新聞文檔,把這些文檔拆成壹個個的字,去重後得到3000個字,然後把這3000個字作為字典,進行文本表示的模型,叫做詞袋模型。

1、特點是字典中的字沒有特定的順序,句子的總體結構也被舍棄。

2、詞袋是壹種不保存順序的分詞方法(生成的標記組成壹個集合,而不是壹個序列,舍棄了句子的總體結構),因此它往往被用於淺層的語言處理模型,而不是深度學習模型。在使用輕量級的淺層文本處理模型時(比如 logistic 回歸和隨機森林),n-gram 是壹種功能強大、不可或缺的特征工程工具。