1,標記化
標記性是指將文本分成句子或單詞。在這個過程中,我們還丟棄了標點符號和多余的符號。
這壹步並不像看起來那麽簡單。比如new york這個詞被拆分成了兩個標簽,但是New York是同義詞,這在我們的分析中可能非常重要,所以最好只保留壹個標簽。這壹步要註意這個。
有標記的好處是會把文本轉換成更容易轉換成原始數字的格式,更適合實際處理。這也是文本數據分析中顯而易見的第壹步。
2.刪除停用詞。
標簽化之後,下壹步自然是刪除停用詞。這壹步的目標和上壹步類似,也是將文本數據轉換成更易管理的格式。這壹步將刪除英語中常見的介詞,如“and”、“the”和“a”。之後在分析數據的時候就可以排除幹擾,把重點放在有實際意義的詞上。
通過比較定義列表中的單詞來刪除停用詞是非常容易的。需要註意的重要壹點是,沒有通用的停用詞表。因此,該列表通常是從頭開始創建的,並且是為要處理的應用程序定制的。
3、提取梗(去梗)
另壹種清理文本數據的技術是提取主幹。這種方法是將單詞還原到詞根形式,目的是將意義相同但與上下文拼寫略有不同的單詞還原到同壹個標記上進行統壹處理。例如,考慮在句子中使用“cook”這個詞。
cook的所有形式意義基本都是壹樣的,所以理論上我們可以在分析的時候把它映射到同壹個標簽上。在本例中,我們將cook、cooks、cooked和cooking標記為“cook”,這將大大簡化我們對文本數據的進壹步分析。
4.單詞嵌入。
從上面的三個步驟中,我們已經清理了數據,現在我們可以將其轉換為可以用於實際處理的格式。
單詞嵌入是將單詞數字化表達的壹種方式,使得意思相近的單詞會以相似的方式表達。現在的單詞嵌入是將單個單詞表示為預定義向量空間中的實值向量。
所有單詞的向量長度都是壹樣的,只是數值不壹樣。兩個詞的向量之間的距離代表了語義的接近程度。比如“cook”和“bake”這兩個詞的向量非常接近,但是“football”和“bake”這兩個詞的向量完全不同。
創建單詞嵌入的壹種常見方法稱為GloVe,代表“全局向量”。GloVe捕獲文本語料庫的全局統計和局部統計來創建單詞向量。
GloVe使用所謂的* * *共生矩陣。* * *當前矩陣指示語料庫中每對單詞壹起出現的頻率。
5.逆文檔頻率(TF-IDF)
術語“詞頻-逆文檔頻率”(通常稱為TF-IDF)是壹個加權因子,通常用於信息檢索和文本挖掘等應用中。TF-IDF使用統計數據來衡量壹個單詞對特定文檔的重要性。
TF-IDF可以實現完美的平衡,兼顧目標詞的局部和全局統計水平。壹個詞在文檔中出現的頻率越高,它的權重就越高,但前提是這個詞在整個文檔中出現的頻率不高。
由於其強大的程度,TF-IDF技術通常被搜索引擎用於在指定關鍵字輸入時判斷文檔相關性的得分和排名。在數據科學中,我們可以通過這項技術知道文本數據中哪些詞和相關信息更重要。
6.主題建模
在自然語言處理中,主題建模是從文本數據或文檔中提取主要主題的過程。本質上,這是壹種降維形式,因為我們將大量的文本數據縮減為少量的主題。主題建模在許多數據科學場景中非常有用。
7.情感分析。
情感分析是壹種自然語言分析技術,旨在從文本數據中識別和提取主觀信息。與主題建模類似,情感分析可以將非結構化文本轉化為嵌入數據中的信息的基本摘要。
大多數情感分析技術屬於以下兩類之壹:基於規則的方法和機器學習方法。基於規則的方法需要遵循簡單的步驟來獲得結果。在諸如標記、停用詞消除和主幹提取的壹些預處理步驟之後,基於規則的方法可以遵循以下步驟:
(1)為不同的情緒定義詞表。例如,如果我們打算定義壹個段落是消極的還是積極的,我們可能必須定義壹些詞,如“壞的”和“可怕的”代表消極情緒,而“偉大的”和“驚人的”代表積極情緒。
(2)瀏覽課文,分別計算正面和負面情緒詞的數量。
(3)如果標記為積極情緒的字數多於消極情緒,則文本情緒為積極情緒,反之亦然。當使用情感分析來獲取壹般含義時,基於規則的方法工作得很好。然而,今天最先進的系統通常使用深度學習,或者至少是經典的機器學習技術來自動化整個過程。
通過深度學習技術,根據分類問題對情感分析進行建模。將文本數據編碼到嵌入空間(類似於上面提到的單詞嵌入)是函數提取的壹種形式。然後將這些函數轉移到分類模型中,對文本情感進行分類。