之後,特征提取將聲音信號從時域轉換到頻域,為聲學模型提供合適的特征向量;在聲學模型中,根據聲學特征計算每個特征向量在聲學特征上的得分;語言模型根據語言學的相關理論計算聲音信號對應可能短語序列的概率;最後,根據已有的詞典,對短語序列進行解碼,得到最終可能的文本表示。
作為語音識別的前提和基礎,語音信號的預處理非常重要。在最終的模板匹配中,將輸入語音信號的特征參數與模板庫中的特征參數進行比較。因此,只有在預處理階段獲得能夠代表語音信號本質特征的特征參數,這些特征參數才能被匹配用於具有高識別率的語音識別。