Bag of words,也叫做“詞袋”,在信息檢索中,Bag of words model假定對於壹個文本,忽略其詞序和語法,句法,將其僅僅看做是壹個詞集合,或者說是詞的壹個組合,文本中每個詞的出現都是獨立的,不依賴於其他詞是否出現,或者說當這篇文章的作者在任意壹個位置選擇壹個詞匯都不受前面句子的影響而獨立選擇的。
這種假設雖然對自然語言進行了簡化,便於模型化,但是其假定在有些情況下是不合理的,例如在新聞個性化推薦中,采用Bag of words的模型就會出現問題。例如用戶甲對“南京醉酒駕車事故”這個短語很感興趣,采用bag of words忽略了順序和句法,則認為用戶甲對“南京”、“醉酒”、“駕車”和“事故”感興趣,因此可能推薦出和“南京”,“公交車”,“事故”相關的新聞,這顯然是不合理的。