基於機器學習的情感分析是什麽意思

以下以語義特征為例：

機器學習基於語義特征的情感分析

基於語義特征的情感分析先人已有研究，可以通過情感詞典匹配來做，但是應用機器學習在這方面會使精確度更高些。?

以本人參與的壹個項目為主，總結下相關技術點。?

背景是：分析用戶評論感情色彩是積極還是消極，即是褒還是貶。

具體步驟為：?

1.有監督的人工給文本標註類標簽。如有5000條評論數據，我們給其中的1000條標為積極的，再選1000條標為消極的，積極和消極就是所謂的類標簽。?

2.選擇特征。從積極的評論數據中按詞來選擇積極的所有特征。同理，從消極的評論數據中按詞來選擇消極的所有特征。如“這款遊戲非常好玩”->”這款”->“遊戲”->”非常”->”好玩”，分為四個特征詞，也可以采用雙詞搭配，“這個遊戲”和“非常好玩”作為特征。?

3.特征降維，減少特征的數量。如上“這個遊戲非常好玩”中的“這個遊戲”沒有必要作為特征，因為“好玩”或“非常好玩”已經決定了評論是積極的。?

4.將語料文本變成使用特征表示。?

5.統計所有特征出現的次數，並按倒序排序。?

6.從以上結果中選出排序最靠前的壹些特征作為最終的評判特征。?

7.使用訓練數據根據特征訓練分類算法，得到分類器。?

8.用測試數據檢測分類器的準確度。?

我們將數據分為兩部分：開發集、測試集。用開發集的數據訓練分類算法得到分類器；再用分類器對測試集裏的數據進行分類，給出分類預測得到的標簽；對比分類標簽和人工標註得到的標簽的差異，計算出準確度。