1.全文精確檢索
支持文本、數字、日期、字符串等多種數據類型,多字段高效搜索,支持與/或不支持。
以及近查詢語法,支持維吾爾語、藏語、蒙古語、阿拉伯語、朝鮮語等多種少數民族語言。
單詞的提取。它可以與現有的文本處理系統和數據庫系統無縫集成。
2.發現新單詞:
從文件集合中挖掘生詞表,可以用來編寫用戶的專業詞典;妳也可以得壹分。
逐步編輯標註,導入分詞詞典,提高分詞系統的準確率,適應新的語言變化。
3.分詞:
對原始語料進行切分,自動識別人名、地名、機構名等未登錄詞,新詞標註和詞性標註。
在分析過程中,可以導入用戶自定義的字典。
4.統計分析和術語翻譯
根據切分和標註結果,系統可以自動進行壹元詞頻統計、二元詞轉移概率統計(統壹
統計兩個詞之間的連接頻率就是概率)。對於常用術語,會自動給出相應的英文解釋。
5.文本聚類和熱點分析
它可以從大規模數據中自動分析熱點事件,並提供事件主題的關鍵特征描述。同時健身
用於短信、微博等長文和短文本的熱點分析。
分類和過濾
根據預先指定的規則和樣本樣本,系統自動從海量文檔中篩選出符合要求的樣本。
7.自動摘要
可以自動提取單篇或多篇文章的精華,方便用戶快速瀏覽文字內容。
8.關鍵詞提取
能從壹篇或壹組文章中提取幾個代表文章中心思想的單詞或短語,可用於
精讀,語義查詢,快速匹配。
9.重復文件
能快速準確地判斷文件集合或數據庫中是否有內容相同或相似的記錄,同時找出
所有重復的記錄。
10.HTML文本提取
自動刪除導航頁面、HTML標簽、導航、廣告等頁面中的幹擾詞,並返回。
返回有價值的文本內容。適用於大規模互聯網信息的預處理和分析。