那麽,正文是如何參與培訓的呢?先說清楚。妳想用什麽型號?
總的來說,我想把文檔轉換成幾個特征來參與模型訓練。主要問題是如何提取幾個能夠代表這個文檔的特征。NLP涉及的東西很多,常見的TF-IDF,字典模型,詞袋模型,w2v向量模型。。。當然,不排除妳用LSTM/RNN來提取特征。經過這些步驟後,文檔就變成了壹個標量或某個維度的向量。