1、特點是字典中的字沒有特定的順序,句子的總體結構也被舍棄。
2、詞袋是壹種不保存順序的分詞方法(生成的標記組成壹個集合,而不是壹個序列,舍棄了句子的總體結構),因此它往往被用於淺層的語言處理模型,而不是深度學習模型。在使用輕量級的淺層文本處理模型時(比如 logistic 回歸和隨機森林),n-gram 是壹種功能強大、不可或缺的特征工程工具。