以下以語義特征為例:
機器學習基於語義特征的情感分析
基於語義特征的情感分析先人已有研究,可以通過情感詞典匹配來做,但是應用機器學習在這方面會使精確度更高些。?
以本人參與的壹個項目為主,總結下相關技術點。?
背景是:分析用戶評論感情色彩是積極還是消極,即是褒還是貶。
具體步驟為:?
1.有監督的人工給文本標註類標簽。如有5000條評論數據,我們給其中的1000條標為積極的,再選1000條標為消極的,積極和消極就是所謂的類標簽。?
2.選擇特征。從積極的評論數據中按詞來選擇積極的所有特征。同理,從消極的評論數據中按詞來選擇消極的所有特征。如“這款遊戲非常好玩”->”這款”->“遊戲”->”非常”->”好玩”,分為四個特征詞,也可以采用雙詞搭配,“這個遊戲”和“非常好玩”作為特征。?
3.特征降維,減少特征的數量。如上“這個遊戲非常好玩”中的“這個遊戲”沒有必要作為特征,因為“好玩”或“非常好玩”已經決定了評論是積極的。?
4.將語料文本變成使用特征表示。?
5.統計所有特征出現的次數,並按倒序排序。?
6.從以上結果中選出排序最靠前的壹些特征作為最終的評判特征。?
7.使用訓練數據根據特征訓練分類算法,得到分類器。?
8.用測試數據檢測分類器的準確度。?
我們將數據分為兩部分:開發集、測試集。用開發集的數據訓練分類算法得到分類器;再用分類器對測試集裏的數據進行分類,給出分類預測得到的標簽;對比分類標簽和人工標註得到的標簽的差異,計算出準確度。