語音識別的聲學模型

語音識別系統的模型通常由聲學模型和語言模型組成，分別對應於語音對音節概率和音節對單詞概率的計算。本節和下壹節分別介紹聲學模型和語言模型技術。

HMM聲學建模:馬爾可夫模型的概念是時域上的離散有限狀態自動機。隱馬爾可夫模型的HMM是指這個馬爾可夫模型的內部狀態對於外界是不可見的，外界只能看到每個時刻的輸出值。對於語音識別系統，輸出值通常是從每壹幀計算出來的聲學特征。用HMM描述語音信號需要兩個假設，壹是內部狀態轉移只與前壹個狀態相關，二是輸出值只與當前狀態(或當前狀態轉移)相關，這大大降低了模型的復雜度。HMM的評分、解碼和訓練對應的算法有前向算法、維特比算法和正反向算法。

在語音識別中，HMM通常被建模為具有自循環和從左到右跨越的單向拓撲結構。音位是三到五態HMM，單詞是由多個音位串聯而成的HMM，連續語音識別的整個模型是單詞和無聲的組合。

語境相關建模:協同發音是指壹個音在相鄰音的影響下發生變化。從發聲機制來看，人類發聲器官的特性只有在壹種聲音轉向另壹種聲音時才能逐漸發生變化，從而使後壹種聲音的頻譜不同於其他條件下的頻譜。上下文相關建模方法在建模時考慮了這種影響，使模型能夠更準確地描述語音。Bi- Phone只考慮前面聲音的影響，Tri-Phone只考慮前面聲音和後面聲音的影響。

英語上下文相關建模通常基於音素。因為有些音素對後續音素有類似的影響，所以我們可以通過音素解碼狀態的聚類來享受模型參數。聚類的結果稱為senone。決策樹用於實現三音素和四音素的有效對應。通過回答壹系列關於類別(元/輔音、濁音/清音等)的問題。)的前後音，最終確定其HMM狀態應該使用哪個senone。分類回歸樹的CART模型用於將單詞的發音標註為音素。