但是,兩者還是有區別的。首先,這兩個概念並沒有明確的定義(就像“數據挖掘”和“數據科學”壹樣),它們在不同程度上相互交叉,這取決於妳在和誰說話。我覺得以頓悟水平來區分是最容易的。如果原文是數據,那麽文本挖掘就是信息,NLP就是知識,也就是語法和語義的關系。
雖然NLP和文本挖掘不是壹回事,但兩者仍然有著密切的聯系:它們處理的是相同的原始數據類型,在使用上有很多重疊。
我們的目的不是兩者的絕對或相對定義,但重要的是要認識到這兩個任務下的數據預處理是相同的。
試圖消除歧義是文本預處理的壹個重要方面。我們希望保留原意,同時消除噪音。
以下是處理文本任務的主要步驟:
1.數據收集
獲取或創建壹個語料庫,來源可以是電子郵件、英文維基百科文章或公司財務報告,甚至是莎士比亞的作品等等。
2.數據預處理
對原始文本語料進行預處理,為文本挖掘或自然語言處理任務做準備。
數據預處理分為幾個步驟,其中壹些步驟可能適用於也可能不適用於給定的任務。但它通常是壹種標記、規範化和替換。
3.數據挖掘和可視化
無論我們的數據類型是什麽,挖掘和可視化都是探索規律的重要步驟。
常見任務可能包括可視化單詞數量和分布、生成單詞雲以及測量距離。
4.模型結構
這是文本挖掘和NLP任務的主要部分,包括訓練和測試。
將在適當的時候進行功能選擇和工程設計。
語言模型:有限狀態機,馬爾可夫模型,詞義的向量空間建模
機器學習分類器:樸素貝葉斯,邏輯回歸,決策樹,支持向量機,神經網絡。
序列模型:隱馬爾可夫模型、遞歸神經網絡(RNN)、長短期記憶神經網絡(LSTMs)。
5.模型評估
模型符合預期嗎?
根據文本挖掘或NLP任務的類型,指標會有所不同。
以上觀點僅供參考,國內在自然語言文本預處理方面很少有效果好的技術,比如北理工張華平博士的NLPIR大數據語義智能分析技術。NLPIR大數據語義智能分析平臺是基於中文數據挖掘綜合需求的* * *開發平臺,整合了網絡精準采集、自然語言理解、文本挖掘、語義搜索等研究成果,面向互聯網內容處理全技術鏈。如果妳有興趣。