知識管理技術
自然語言處理技術據統計,當前數字化的信息中80%的信息以非結構化的形式存在,其中大部分信息以自然語言描述形式的文本。方正智思輿情預警輔助決策支持系統作為壹個信息資訊分析應用系統,能夠對自然語言描述文本形式進行深入的分析挖掘。
n 自動分詞技術
自動分詞技術是中文信息處理與分析的基礎。錯誤的分詞將導致完全錯誤的信息語義。方正智思輿情預警輔助決策支持系統中以詞典和規則為基礎,綜合利用了基於概率分析的語言模型方法,使分詞的準確性達到99%,並可根據不同的應用進行適合特定要求的分詞。
n 自動關鍵詞與自動摘要技術
方正智思輿情預警輔助決策支持系統在篇章語義分析的基礎上,綜合考慮詞頻、詞性、位置信息,實現準確的自動關鍵詞與自動摘要。同時利用指代消解等技術使得摘要更具可讀性。
信息檢索技術n 全文檢索技術
方正智思輿情預警輔助決策支持系統的全文引擎將傳統的全文檢索技術與最新的WEB搜索技術相結合,大大提高檢索引擎的性能指標。同時融合了多種相關技術,提供豐富的檢索手段以及同義詞等智能檢索方式。
數據挖掘技術n 自動分類與自動聚類
分類是通過對訓練集的學習,得出每壹分類的屬性特征的模型,然後使用這壹模型對未知分類情況的數據進行分類。典型的應用是系統通過對部分已知分類文檔的學習訓練後,對文檔集進行自動分類。它區別於聚類的關鍵是它有個學習的過程。
聚類是將數據集合中的數據劃分為具有壹定意義的子集,使得不同子集中的數據差別(距離)盡可能大,而同壹子集中的數據差別(距離)盡可能小。典型的應用例子是,在空間數據庫中,根據數據點的空間分布情況,將數據點分成不同的簇。
相似搜索與消重相似搜索是在對象集合中,找到與指定的查詢對象相似的對象實例或對象子集。例如:從WEB中找出與指定內容相似的頁面、圖片或其他信息。
在實際應用中,找出輿情信息內容幾乎相同的文章,實現對輿情信息的消重;根據文章主題相似性,形成專題報道,背景分析等等。