文本挖掘是壹個多學科領域,涵蓋了多種技術,包括數據挖掘技術、信息抽取、信息檢索、機器學習、自然語言處理、計算語言學、統計數據分析、線性幾何、概率論甚至圖論。
自然語言處理是計算機科學和人工智能領域的壹個重要方向。它研究用自然語言實現人與計算機之間有效交流的各種理論和方法。自然語言處理是壹門集語言學、計算機科學和數學於壹體的科學。所以這方面的研究會涉及到自然語言,也就是人們日常使用的語言,所以和語言學的研究密切相關,但又有重要的區別。
因此,自然語言處理和文本挖掘是相互包容的,可以相互聯系、相互影響。
由北京理工大學大數據搜索與挖掘實驗室主任張華平研發的NLPIR大數據語義智能分析技術,滿足了語法、詞法、語義在大數據挖掘中的綜合應用。NLPIR大數據語義智能分析平臺是基於中文數據挖掘綜合需求的* * *開發平臺,整合了網絡精準采集、自然語言理解、文本挖掘、語義搜索等研究成果,面向互聯網內容處理全技術鏈。
NLPIR大數據語義智能分析平臺主要包括精準采集、文檔轉化、新詞發現、批量分詞、語言統計、文本聚類、文本分類、抽象實體、智能過濾、情感分析、文檔去重、全文檢索、代碼轉換等十余個功能模塊。平臺提供多種產品使用形式,如客戶端工具、雲服務、二次開發接口等。每個中間件API可以無縫集成到客戶的各類復雜應用系統中,可以兼容Windows、Linux、Android、Maemo5、FreeBSD等不同的操作系統平臺,可以被Java、Python、C、C#等多種開發語言使用。