當前位置:成語大全網 - 成語詞典 - 網絡輿情的監測技術

網絡輿情的監測技術

近幾年,中國著力於利用技術手段實現對海量的網絡輿情信息進行深度挖掘與分析,以快速匯總成輿情信息,從而代替人工閱讀和分析網絡輿情信息的繁復工作。網絡輿情相關的關鍵性技術歸結為:單體化技術與系統化技術兩類,現逐壹論述。

網絡輿情相關的單體化技術主要包含以下四個:

(1) 網絡輿情采集與提取技術:網絡輿情主要通過新聞、論壇/BBS、博客、即時通信軟件等渠道形成和傳播,這些通道的承載體主要為動態網頁,它們承載著松散的結構化信息,使得輿情信息的有效抽取很有難度。梅雪等人(2007)通過全自動生成網頁信息抽取Wrapper的方法在壹定程度上實現了動態網頁數據的抽取與集成,具有壹定的處理準確率以及抽取效率。

(2) 網絡輿情話題發現與追蹤技術:網民討論的話題繁多,涵蓋社會方方面面,如何從海量信息中找到熱點、敏感話題,並對其趨勢變化進行追蹤成為研究熱點。早期的Allan James、J. Allan、G.Hulten、Qiaozhu Mei等人的研究思路是基於文本聚類,即文本的關鍵詞作為文本的特征。這種方法雖然能將壹個大類話題下的文本進行聚合,但沒有保證話題的可讀性與準確性。段建國等人(2007)在此思路的基礎上進行改進,實現了話題發現與追蹤:即將文本聚類問題轉換為話題特征聚類問題,並依據事件對語言文本信息流進行重新組織與利用。

(3) 網絡輿情傾向性分析技術:通過傾向性分析可以明確網絡傳播者所蘊涵的感情、態度、觀點、立場、意圖等主觀反映。比如新浪網的“新聞心情排行”將用戶閱讀新聞評論時的心情劃分為如圖2-1所示的八個層次。對輿情文本進行傾向性分析,實際上就是試圖用計算機實現根據文本的內容提煉出文本作者的情感方向的目標。唐慧豐、徐琳宏、李艷玲等人(2007)致力於網絡輿情文本的傾向性分析技術:通過判斷網絡環境下傾向性特征詞的特點和類型,並進行語氣極性判別和標註,從而構建壹個面向互聯網的傾向性語氣詞典,建設壹定規模的標準數據集,為中文傾向性分析的深入研究提供支持。

(4) 多文檔自動文摘技術:新聞、帖子、博文等頁面都包含著垃圾信息,多文檔自動摘要技術能對頁面內容進行過濾,並提煉成概要信息,便於查詢和檢索。張姝(2007)、劉茂福(2008)、張瑾(2008)在壹定程度上實現了網絡輿情信息自動生成報文,並能通過瀏覽器進行瀏覽和信息檢索。

通過中國網絡輿情相關領域的單體化技術研究綜述可以看出:從網絡輿情信息的采集與提取,到話題的發現與追蹤、到態度傾向性分析,再到多文檔自動摘要的生成,為我國網絡輿情安全評估的研究提供了有效的輿情信息獲取和分析方法。但是,它們都是從純技術角度出發的,而缺乏“輿情”這壹社會層面在技術層面上的體現。