LDA模型是文本集生成的概率模型。假設每個文本由主題的多項式分布表示,每個主題由單詞的多項式分布表示。特別地,假設文本的主題分布的先驗分布是狄利克雷分布,主題的詞分布的先驗分布也是狄利克雷分布。先驗分布的引入使得LDA能夠更好地應對話題模型學習的過擬合現象。
LDA的文本集的生成過程是:首先隨機生成壹個文本主題分布,然後根據文本的主題分布在文本的每個位置隨機生成壹個主題,再根據主題的單詞分布在那個位置隨機生成壹個單詞,直到文本的最後壹個位置,生成整個文本。重復上述過程,生成所有文本。
LDA模型是壹種帶有隱藏變量的概率圖模型。在模型中,每個話題的詞分布、每個文本的話題分布、文本每個位置的話題都是隱變量;文本中的每壹個平民詞匯都是壹個觀察變量。LDA模型的學習和推理不能直接解決,通常采用Gibbs抽樣和變分EM算法。前者是蒙特卡羅方法,後者是近似計算。
多項式分布是多元離散隨機變量的概率分布,是二項式分布的推廣。
假設重復n個獨立隨機實驗,每個實驗有k個可能的結果,第壹個結果的概率為0,第壹個結果的個數為0。如果用壹個隨機變量來表示試驗所有可能結果的次數,其中I型結果出現的次數,則該隨機變量服從多項式分布。
如果離散隨機變量的概率密度為
其中,隨機變量X據說服從參數為(n,p)的多項式分布,記為
當測試次數n為1時,多項式分布變成類別分布。類別分布表示實驗中K個可能結果的概率。顯然,先驗分布包括類別分布。
狄利克雷分布是多元隨機變量的概率分布,是貝塔分布的推廣。在貝葉斯學習中,狄利克雷分布被用作多項式分布的先驗概率。
多元連續隨機變量的概率密度函數為
其中,稱隨機變量服從帶參數的狄利克雷分布,記為
公式
具有以下屬性
當s是自然數時,有
制造
那麽狄利克雷分布的密度函數可以寫成
是壹個歸壹化因子,叫多元貝塔函數(叫擴展貝塔函數)。根據密度函數的性質
得到
狄利克雷有壹些重要的性質:(1)狄利克雷分布屬於指數分布簇;(2)狄利克雷分布是多項式分布的壹個軛先驗。
* * *軛分布常用於貝葉斯學習。如果後驗分布和先驗分布屬於同壹類,則先驗分布和後驗分布稱為* * *軛分布,先驗分布稱為* * *軛先驗。如果多項式分布的先驗分布是狄利克雷分布,作為先驗分布的狄利克雷分布的參數也叫超參數,那麽使用* * *軛先驗分布的好處是方便由先驗分布計算後驗分布。
將樣本數據表示為D,目標是在樣本數據D的給定條件下計算參數的後驗概率。對於給定的樣本數據D,似然函數為
假設隨機變量服從狄利克雷分布,其中為參數,的先驗分布為
根據貝葉斯法則,給定樣本數據D和參數A,的後驗概率分布為
狄利克雷後驗分布等於狄利克雷分布參數加多項式分布的觀測技術。
潛在狄利克雷分布(LDA)是文本集生成的概率模型。該模型假設主題由詞的多項式分布表示,文本由主題的多項式分布表示,詞分布和主題分布的先驗分布為狄利克雷分布。因為題目分布不同,課文內容也不壹樣。
LDA模型表示文本集的自動生成過程:首先基於詞分布的先驗分布(狄利克雷分布),生成多個詞分布,即確定多個主題內容;然後,基於主題分布的先驗分布(狄利克雷分布),生成多個主題分布。對於每個話題,基於話題的詞分布生成詞,整體形成壹個詞序列,即生成文本。重復此過程以生成所有文本。文本的詞序是觀察變量,文本的話題序是隱藏變量,文本的話題分布和話題的詞序分布也是隱藏變量。
可以認為LDA是PLSA的擴展,相似性假設話題是詞的多項式分布,文本是中文話題的多項式分布。不同點的LDA使用狄利克雷分布作為先驗,而PLSA不使用先驗分布(或者假設先驗分布是均勻的),所以他們對文本生成過程有不同的假設。LDA基於貝葉斯學習,PLSA基於最大似然估計。LDA的優點是利用先驗概率分布可以防止學習過程中的過擬合。
用三個集合:壹個是單詞集合,這裏是第v個單詞,v是單詞數。第二個是文本集,其中是文本的第n個單詞,是文本的字數。三是話題集,其中是第k個話題,k是話題數。
每壹個話題都是由壹個詞的條件概率分布決定的。分布服從多項式分布(嚴格來說是類別分布),其參數為。參數是V維向量服從狄利克雷分布(先驗分布),其超參數為。參數,表示生成單詞的概率。所有題目的參數向量形成壹個矩陣,超參數也是壹個V維向量。
每個文本由壹個話題的條件概率分布決定,分布服從多項式分布(嚴格來說是類別分布),它的參數是,參數服從狄利克雷分布(先驗分布),它的超參數是a,參數是壹個k維向量,這裏表示文本產生話題的概率。所有的文本構成參數組成壹個M*K矩陣,超參數A也是壹個K維向量。
每篇課文中的每個詞都是由課文的主題分布和所有主題的詞分布決定的。
LDA本質上是壹個概率圖模型。該圖將LDA顯示為概率圖模型的平板表示,其中節點表示隨機變量,實心節點是觀察變量,空心節點是隱藏變量。有向邊表示概率依賴;矩形(板)中的數字表示重復次數。
節點表示模型的超參數,主題的詞分布參數,文本、主題和詞的主題分布參數。節點指向節點,重復k次,表示根據超參數生成k個話題的詞分布參數;節點A指向該節點,重復m次,表示根據超參數A生成m個文本的主題分布參數;節點指向並重復n個單詞,即根據文本的主題分布生成壹個主題;節點指向節點,k個節點也指向節點,也就是根據話題和k個話題的詞生成詞。LDA是壹種概率圖模型,其中重復使用相同的隨機參數。
潛在狄利克雷分布(LDA)的學習(參數估計)是壹個復雜的優化問題,很難精確求解。常見的近似解有吉布斯抽樣和變分推理。
吉布斯采樣的優點是實現簡單,缺點是可能叠代次數較多。
LDA模型學習,給定壹組文本(詞序列),其中第m個文本集的詞序列已知,即超參數已知。目標是推斷
吉布斯抽樣是壹種常用的馬爾可夫鏈蒙特卡羅方法。為了估計多元隨機變量X的聯合概率分布p(x ),吉布斯抽樣法選取X的壹個分量,固定其他分量,根據其條件概率分布進行隨機抽樣,對每個分量進行壹次這種運算,得到聯合概率分布p(x)的壹個隨機樣本。重復該過程,並且在燃燒周期之後,獲得聯合概率分布p(x)的樣本集。
LDA模型通常采用收縮Gibbs抽樣方法。基本思想是通過積分隱變量得到邊際概率分布(也叫聯合分布),其中W為可觀測變量,Z為不可觀測變量。對後驗概率分布進行吉布斯采樣,得到該分布的樣本集;然後用這個樣本集估計參數和,最後得到模型的所有參數估計。
這裏變量已知,分母相同,可以忽略。聯合概率分布的表達式可以進壹步分解為
這兩個因素可以分開處理。
推導第壹個因子的表達式。
其中是k話題在詞集中產生第五個詞的概率,是k話題在數據中產生第五個詞的次數。
在…之中
第二個因子的表達式也可以類似地推導出來。第壹
其中是第m個文本生成第k個話題的概率,是數據根據第m個文本生成的第k個話題,所以
在公式中,可用
吉布斯抽樣得到的分布樣本可以得到變量Z的分布值,並對變量進行估計。
變分推理是貝葉斯學習中常用的壹種學習和推理方法,其中包含了隱變量模型。變分推理和馬爾可夫蒙特卡羅(MCMC)屬於不同的技能。MCMC通過隨機抽樣逼近統計模型的後驗概率,變分推理通過解析法計算模型的後驗概率。
變分推理的基本思想如下。假設模型為聯合桂林分布,其中X為觀察變量,Z為隱藏變量,包含參數。目標是學習模型的後驗概率分布p(z|x ),並使用模型進行概率推理。然而,這是壹個復雜的分布,很難直接估計分布的參數。因此認為用概率分布q(z)來近似條件桂林分布p(z|x),用KL散度D (q(z) || p (z | x))來計算兩者的相似度。Q (z)稱為變分分布。如果能找到壹個在KL散度意義下與p(z|x)近似的分布,就可以用這個分布來近似p(z|x)。
KL散度可以寫成以下形式
將變分EM算法應用於LDA模型的研究。首先定義了具體的變分分布,推導了證據下界的表達式。然後,推導了變分分布參數和LDA模型參數的估計形式。最後,給出了LDA模型的變分EM算法。
文本的詞序,對應的主題序列和主題分布,以及隨機變量的聯合概率分布是
基於平均場定義變分分布。
其中是壹個可觀察變量,壹個隱藏變量和壹個參數。
基於平均場定義變分分布。
其中狄利克雷分布參數是多項式分布參數,變量的各個分量都是條件獨立的。目標是找到KL散度意義下最接近的變分分布,並逼近LDA模型的後驗概率分布。
由此,我們可以得到壹個文本證據的下界。
所有文本的證據下限是
為了最大化證據的下界,先寫出證據下界的表達式。為此,擴展證據的下限表達式。
根據變分參數,模型參數繼續展開,展開的每壹項都寫成壹行。
等式是對數伽馬函數,即
第壹個推導,求,是關於分布的數學期望。
在…之中
因此
古德
其中分別表示第k個主題的狄利克雷分布參數。
第二個推導是關於分布的數學期望。
在公式中,它表示文檔中第n個位置的單詞被第k個主題生成的概率,它表示第k個主題的狄利克雷分布參數。
第三個推導是關於分布的數學期望。
公式中表示文檔第n個位置的單詞被第k個題目生成的概率,也就是說當第n個位置的單詞是單詞集的v個單詞時,取1;否則取0,代表第k個題目生成詞集的v字的概率。
第四個推導,求