軍犬網絡輿情監控系統的核心技術為互聯網信息采集技術、自然語言智能處理技術(文本挖掘技術)、全文檢索技術和輿情應用技術。
1.1 互聯網信息采集技術
1.1.1 強大的信息采集功能
強大的信息采集功能是其他所有功能的保障。采集技術不過硬的產品不可能達到有效的輿情監測效果。軍犬的數據采集與數據挖掘居全行業之首,為信息的深度處理提供了強有利的保證。
1.1.2 支持各種網絡載體的監控
可監控各大搜索引擎,新聞門戶,BBS,博客,留言版,微博,視頻,搜索,文檔
1.1.3 元數據搜索功能
元搜索引擎集成了不同性能和不同風格的搜索引擎並發展了壹些新的查詢功能。查壹個元搜索引擎就相當於查多個獨立搜索引擎。進行網絡信息檢索與收集時,元搜索可指定搜索條件,從而既提高信息采集的針對性又擴大了采集範圍的廣度,收到事半功倍的效果。 1.1.4 內置1.8萬個監控網站
無需過多配置便可輕松對1.8萬網站實施監控。
1.1.5 可監控各種語言,各種編碼的網站
無需配置自動識別語言和網站編碼。
1.1.6 信息智能提取技術
網頁內容智能提取技術能有效地提取網頁中的有效信息,區分網頁中的標題、正文等信息項,並對內容具有連續性的多個網頁內容進行自動合並、網絡論壇信息自動提取等。
1.1.7 結構化采集技術
對非結構化的網頁數據在采集的時候進行結構化的信息抽取和數據存儲,以滿足多維度的信息挖掘和統計需要。
1.1.8 全天候不間斷監控
可定時監控,也可7*24全天候監控。實際應用中可以做到分鐘級的采集更新。
1.2 自然語言智能處理技術
1.2.1 自動分詞技術
采用以詞典為基礎,規則與統計相結合的分詞技術,有效解決了切分歧義。綜合利用了基於概率分析的語言模型方法,使分詞的準確性達到99%,並可根據不同的應用進行適合特定要求的分詞分詞速度快。
1.2.2 自動關鍵詞和自動摘要技術
在文本語義分析的基礎上,綜合考慮詞頻、詞性、位置信息,實現準確的自動關鍵詞與自動摘要。同時利用指代消解等技術使得摘要更具可讀性。
1.2.3 自動分類技術
不需要人工幹預的自動分類技術,有效提高非結構化信息的加工效率。文本分類是指計算機根據文本內容進行類別劃分的功能。中科點擊自動分類技術包括以下兩中分類方式:
A 基於內容的文本自動分類
B 基於規則的文本分類
1.2.4 自動聚類技術
自動聚類技術是基於相似性算法的自動聚類技術,自動對海量的無類別文檔進行歸類,把內容相近的文檔歸為壹類,並自動為其生成主題詞,為確定類目名稱提供方便。可應用於自動生成輿情專題,重大新聞事件追蹤等等
1.2.5 相似性檢索和查重技術
基於文檔“指紋”的文本查重技術,支持海量數據的信息查重。
相似性檢索是指對於給定樣本的文本,在文本集合中查找出與之內容相似的其他文本的技術。在實際應用中,找出輿情信息內容幾乎相同的文章,實現對輿情信息的消重;根據文章主題相似性,形成專題報道,背景分析等等。
1.3 智能檢索技術
本系統的全文引擎將傳統的全文檢索技術與最新的WEB搜索技術相結合,大大提高檢索引擎的性能指標。同時融合了多種相關技術,提供豐富的檢索手段以及同義詞等智能檢索方式。