語音識別中區分性訓最大似然估計的區別是什麽？

語音識別系統的壹般架構如左圖，分訓練和解碼兩階段。訓練，即通過大量標註的語音數據訓練聲學模型，包括GMM-HMM、DNN-HMM和RNN+CTC等；解碼，即通過聲學模型和語言模型將訓練集外的語音數據識別成文字。目前常用的開源工具有HTK Speech Recognition Toolkit，Kaldi ASR以及Tensorflow(speech-to-text-wavenet)實現端到端系統。我以古老而又經典的HTK為例，來闡述語音識別領域涉及到的概念及其原理。HTK提供了豐富的語音數據處理，以及訓練和解碼的工具。語音識別，分為孤立詞和連續詞語音識別系統。早期，1952年貝爾實驗室和1962年IBM實現的都是孤立詞（特定人的數字及個別英文單詞）識別系統。連續詞識別，因為不同人在不同的場景下會有不同的語氣和停頓，很難確定詞邊界，切分的幀數也未必相同；而且識別結果，需要語言模型來進行打分後處理，得到合乎邏輯的結果。