文本主題模型的潛在語義索引

在文本挖掘中，主題模型是壹個特殊的棋子，它的思想與我們常用的機器學習算法不同，所以這裏需要總結壹下文本主題模型的算法。本文主要研究潛在語義索引算法的原理。

1.文本主題模型的問題特征

在數據分析中，我們經常使用無監督學習聚類算法，它可以對我們的特征數據進行無監督聚類。主題模型也是壹種無監督算法，目的是根據主題得到文本的概率分布。在這方面，主題模型與常見的聚類算法非常相似。但兩者其實是有區別的。

聚類算法側重於從樣本特征的相似性對數據進行聚類。比如通過數據樣本之間的歐氏距離，曼哈頓距離聚類等等。主題模型，顧名思義，是對文本中隱藏的主題的壹種建模方法。例如，從“以人民的名義”和“大康書記”這兩個詞中，我們很容易發現對應的文本具有很大的主題相關性，但如果用詞特征進行聚類，就很難發現，因為聚類方法無法顧及隱含的主題。

那麽如何找到隱藏的主題呢？這是個大問題。常用的方法壹般是基於統計生成的方法。即假設以壹定概率選擇壹個話題，然後以壹定概率選擇當前話題的詞。最後，這些短語成了我們現在的課文。從語料庫中可以得到所有詞的統計概率分布，如何以壹定的概率進行選擇，是各種特定主題模型算法的任務。

當然也有壹些方法不是基於統計的，比如我們下面要講的LSI。

2.潛在語義索引綜述

潛在語義索引(LSI)，有些文章也被稱為潛在語義分析(LSA)。其實是壹個東西，後面我們會統稱LSI，是壹個簡單實用的主題模型。LSI是基於奇異值分解(SVD)來獲取文本的主題。SVD及其應用在之前的文章中已經多次提到，比如奇異值分解的原理及其在降維中的應用，矩陣分解在協同過濾推薦算法中的應用。如果不熟悉SVD，建議在閱讀以下內容之前先回顧壹下奇異值分解的原理及其在降維中的應用。

這裏我們簡單回顧壹下SVD:對於壹個m×n的矩陣A，可以分解成以下三個矩陣:

am×n = um×mσm×nvn×nT

有時為了將矩陣的維數降低到k，SVD的分解可以近似地寫成:

am×n≈um×kσk×kvk×nT

如果把上面的公式應用到我們的主題模型中，SVD可以解釋為:我們輸入了m個文本，每個文本有n個單詞。而Aij對應的是第I個文本的j字的特征值，這裏最常用的值是基於預處理後歸壹化的TF-IDF值。k是我們假設的題目數，壹般小於課文數。SVD分解後，Uil對應的是第I個文本和第L個主題的相關度。Vjm對應於第j個單詞和第m個單詞含義之間的相關性。σ lm對應的是第壹主位和m字義之間的相關性。

也可以反過來解釋:我們輸入了m個單詞，對應n個文本。而Aij對應的是第I個word文件的第j個文本的特征值，這裏最常用的值是基於預處理後的標準化TF-IDF值。k是我們假設的題目數，壹般小於課文數。SVD分解後，Uil對應的是第I個單詞和第L個單詞含義之間的相關性。Vjm對應於第j個文本和第m個主題之間的相關性。σ lm對應的是第壹個意義和m主位之間的關聯。

這樣通過SVD壹次就可以得到文檔和主題、詞和意義、意義和主題的相關度。

3.LSI的簡單例子

下面是壹個簡單的LSI例子，假設我們有下面的詞頻TF對應矩陣，有10個單詞，三個文本如下:

這裏我們不使用預處理或者TF-IDF。在實際應用中，最好使用預處理後的TF-IDF值矩陣作為輸入。

我們假設對應的主題數為2，那麽SVD降維後得到的三個矩陣為:

從矩陣Uk可以看出單詞和意思的相關性。從Vk可以看出三個文本和兩個主題的相關性。妳可以看到，裏面有負數，所以這樣得到的相關性很難解釋。

4.LSI用於文本相似度計算。

LSI得到的文本主題矩陣可以用來計算文本相似度。計算方法壹般是通過余弦相似度。例如，對於上面的三個文檔和兩個主題的例子。我們可以如下計算第壹文本和第二文本之間的余弦相似度:

sim(d1，d2)=(？0.4945)?(?0.6458)+(0.6492)?(?0.7194)(?0.4945)2+0.64922(?0.6458)2+(?0.7194)2

5.LSI主題模型綜述

LSI是最早的主題模型，算法原理非常簡單。壹個奇異值分解可以得到主題模型，同時解決詞義問題，非常漂亮。但是LSI有很多缺點，使得它在目前實用的主題模型中基本不再使用。

主要問題是:

1) SVD計算非常耗時，尤其是在我們的文本處理中，字數和文本量都非常大，對這樣壹個高維矩陣做奇異值分解非常困難。

2)題目值的選擇對結果影響很大，很難選擇壹個合適的K值。

3) LSI不是概率模型，缺乏統計學基礎，很難直觀解釋結果。

對於問題1)，NMF可以解決矩陣分解的速度問題。對於問題2)，這是壹個由來已久的問題。大多數主題模型中的主題數壹般是憑經驗選擇的，較新的分層狄利克雷過程(HDP)可以自動選擇主題數。對於問題3)，黃牛們開發了基於概率分布的話題模型，如pLSI(也叫pLSA)、隱狄利克雷分布(LDA)，來代替基於矩陣分解的話題模型。

回到LSI本身，對於壹些小規模的問題，如果想快速粗略的找出壹些話題分布的關系，LSI是更好的選擇。其他時候，如果需要使用主題模型，推薦LDA和HDP。