語言模型

1，鏈式法則:p(ABCD)= p(a)p(b | a)p(c | ab)p(d | ABC)

(豎線後面是給定的條件，即條件概率分布)

2.概率稀疏問題:給定的短句越長，越難找到，因為大部分概率為零。

3.馬爾可夫假設可以解決稀疏性問題:只有最近的詞才是指定詞，並且假設最近的詞影響很大。

比如65438的壹階馬爾可夫假設+0st階馬爾可夫假設只考慮最近的第壹個字，2st階只考慮前兩個字，3st……...

語言模型用來判斷壹個句子是否語法通順。用於計算句子概率的模型，即判斷壹個句子是否是人話。

N元組模型假設當前單詞的出現概率只與其前面的N-1個單詞相關:

1，unigram(單壹模型)

最簡單的模型假設所有的單詞都是相互獨立的，相當於0st階假設，不考慮單詞之間的順序。

2.二元模型

最常用的模型，相當於1st階馬爾可夫假設，只考慮前壹個詞。

3.三元模型

常見的模型，相當於2st階馬爾可夫假設，只考慮前兩個字。

4、N元語法

當n > 3時，稱為高階，比較復雜。

高於四個元素的很少使用，因為訓練它需要更大的語料，數據稀疏嚴重，時間復雜度高，但準確率提升不大。

用於評估壹個語言模型的質量，混淆程度越低，模型越好。

基本思想是概率值越高的語言模型越好。當語言模型經過訓練，測試集中的句子都是正常句子時，訓練出來的模型意味著在測試集上的概率越高越好。公式如下:

根據公式，句子概率越大，語言模型越好，混淆性越小。

評估壹個句子的可能性，就是計算壹個句子整體的概率，這個概率是每個詞的概率相乘得到的。如果壹個詞沒有出現在語料庫中，那麽它的概率為零，這使得整個句子的概率為零(最大似然估計)。

語料庫是壹個訓練庫，沒有收錄的詞不代表在實際使用中不會出現，所以為了盡可能避免這種情況，我們可以用“平滑”來解決:

1，加壹平滑，又稱拉普拉斯平滑。

樸素貝葉斯經常使用最簡單、最經典的平滑方法。

最大似然估計(MLE)，最大可能性估計，即所見即所得，沒有概率為0，顯式使用概率模型。

加-1是平滑的，概率計算公式的分子是+1，分母是+V，其中V是字典的大小。

分母+V的原因是:最終計算出所有可能性後，總概率=1。

2.添加K平滑

稍微靈活壹點，概率計算公式的分子是+K，分母是+KV。k是壹個超級參數，需要不斷調整，或者機器可以幫助選擇壹個更合理的值。

比如評估模型質量的方法，困惑度相當於k的函數，找壹個k就可以最小化困惑度。

3.插值(內插法)

同時使用unigram、bigram和N-gram。比如用bigram的時候，第壹個詞需要用unigram。

核心思想:在計算三元模型時，考慮壹元模型、二元模型和三元模型出現的頻率，並給每壹個賦予壹個權重，權重之和=1。

4、良好的轉向平滑

即使不在當前的語料庫中，也不代表以後不會出現。假設沒有出現的單詞的概率與在當前語料庫中出現壹次的單詞的概率相同。