文本分析法作為壹種新的基於定性研究的定量分析方法,能夠揭示文本的變化和特征,為經典問題的研究提供了新的思路。
文本分析在很多領域都有應用,例如在旅遊業中,可以通過文本分析研究旅遊形象的感知,例如在經濟學中,可以通過文本分析研究當前的保險政策,其他領域也會應用文本分析。
二、文本分析的壹般研究步驟
文本分析有五個常見步驟,包括數據收集、分詞、數據清洗、特征提取、建模和其他分析,如下圖所示:
數據搜集
文本分析的第壹步需要收集數據,獲取文本數據的途徑壹般包括網絡平臺、媒體平臺、新聞、知網、論壇等。
分詞
計算機會把我們輸入的字符串分解成單詞,以便後續分析。
數據清理
在文本分析過程中,首先需要對文本進行預處理。預處理是非常重要的壹步,直接影響後續分析的準確性和可靠性。去除標點和停用詞是壹種常見的預處理操作,可以有效去除文本中的無關信息,提高分析效率。同時,通過分詞和停用詞去除也有助於提取更準確的關鍵詞和主題。此外,文本的主題會通過關鍵詞頻率、分布等進行分析,壹些研究者還會通過分析情感詞來了解文本的情感傾向。
特征抽出
數據清洗後,可以進行特征提取,例如可以使用可視化部分的tf-idf,這是壹種常見的特征提取方法,它考慮了詞匯在文本中的重要性及其在語料庫中的普遍性。TF-IDF值越高,該單詞在文本中的重要性就越大,還有其他方法。
後續分析
使用文本數據進行後續分析,例如可視化圖形顯示、主題分析、聚類等,這些將在下壹模塊中進行解釋。
第三,SPSSAU如何運作?
文本分析演示:點擊SPSSAU主系統左側儀表板上的“文本分析模塊”進入。
進入文本分析模塊後,研究人員可以選擇自行上傳數據,包括粘貼文本或上傳txt/excel文件(大小限制在5m以內)。如下圖所示:
然後您可以根據自己的需要選擇分析方法並進行分析:
第四,文本分析能做什麽?
文本分析有許多應用。以SPSSAU為例,它可以執行文本可視化(詞雲分析)、文本情感分析、文本聚類分析、社交網絡關系圖、LDA主題分析語義分析等。
文本可視化
在文本分析模塊中,最重要和最基本的事情是顯示分詞的結果,通常使用詞雲。在詞雲分析方面,SPSSAU提供了四個功能,分別是詞雲分析、自定義詞雲、詞定位和tf-idf。
詞雲分析
該詞的雲圖直觀地顯示了65438+2023年2月***41的新聞內容的關鍵詞,住戶、城市、開發和建設都是關鍵信息。默認顯示前100個高頻關鍵詞,這個數字可以獨立設置。您還可以修改單詞雲的樣式並下載單詞的雲圖。
自定義單詞雲
如果您對詞雲分析不滿意,還可以使用自定義詞雲。研究人員可以將排序後的信息(包括關鍵詞及其詞頻)直接粘貼(或編輯)到表格中,然後就會出現相應的詞雲圖。
單詞定位
壹個單詞可以通過單詞定位來觀察,也可以通過行號來查看。
tf-idf
在文本分析中,tf-idf是壹個重要的指標,它反映了壹個關鍵詞在整個數據中的重要性。tf-idf越高,其重要性越高。其含義與詞頻不同,詞頻是指出現的次數,而tf-idf更關註關鍵詞的重要性。其中:tf-idf = tf * idf;其中tf: TF = n/n,其中n是關鍵字的詞頻,n是整個數據的詞頻之和,n是固定值。當n為詞頻越高時,TF越高,說明關鍵詞越重要;IDF = log(D/(1+D)),其中log是對數,D是數據中的行數,D是單詞在數據中出現的行數。d是壹個固定值。D值越大,到處出現的idf越小。D值越小,當它不到處出現時,idf越高。idf越高,關鍵詞的重要性越高。
文本情感分析
目前主流的文本情感分析方法可以分為三類:基於情感詞典的方法、機器學習方法和深度學習方法。基於情感詞典的方法是壹種傳統的情感分析方法,它利用情感詞典中的情感極性來計算目標句子的情感值。雖然基於字典的分析方法實現簡單,但它也有壹些缺點。它的準確性很大程度上取決於詞典構建的質量,構建壹個情感詞典需要大量的人力物力,對新詞的適應性也較差。
在文本分析模塊中,SPSSAU***提供了兩種情感分析方式,即逐詞情感分析和逐行情感分析。逐詞情感分析是對提取的關鍵詞進行情感分析並可視化展示;逐行情感分析是指以“行”為單位分析原始數據的情感分析,具體的情感評分信息可以下載。
文本聚類
文本聚類是指將需要分析的關鍵詞進行聚類並可視化顯示。SPSSAU***提供了兩種文本聚類方法,即詞聚類和線聚類。
社交網絡圖
社交網絡圖顯示了關鍵詞之間的關系。這裏的關系指的是“* * *詞矩陣”,即兩個關鍵詞同時出現的頻率,“* * *詞矩陣”的信息以可視化的方式呈現。
* * *詞矩陣:主要用於表示關鍵詞之間的關聯強度。它是由行和列組成的矩陣,關鍵字之間的相關程度由矩陣中的元素表示。在* * *詞矩陣中,元素的值越大,兩個關鍵詞之間的相關性越強,即它們* * *共現的頻率越高。
社會網絡圖:社會網絡圖在文本分析中的應用主要是揭示文本中實體之間的關系。這種圖表可以幫助我們更好地理解文本的主題和內容,發現文本中隱藏的信息和模式。
LDA主題分析
主題模型是壹種統計模型,用於統計壹系列文檔中出現的主題數量。LDA可以通過無監督學習方法發現隱藏在文本中的主題信息。LDA將主題視為文檔內容的濃縮,因此我們可以通過LDA從大規模語料庫中的信息生成文檔。生成的文檔可以視為由許多主題組成,構成主題的每個單詞都是無序的,從而達到降低文檔維度的效果,大大降低了問題的復雜性,並且還具有語義特征。SPSSAU的結果如下(氣泡大小表示主題的重要性,條的長度表示表達主題時單詞的重量):
新詞的發現
字典無法識別的內容涉及兩個關鍵指標,即信息熵和互信息。信息熵越大,單詞越容易與其他單詞組合成單詞,而信息熵越小,單詞越難與其他單詞組合。
停止詞/情緒詞
停止詞:停止詞是指在文本中頻繁出現但對文本主題和內容貢獻不大的詞。停用詞的去除可以提高分析的效率和準確性;
情感詞:情感詞是指表達感情或情感傾向的詞語。情感詞的識別和分析可以幫助我們更好地理解文本的情感內涵;