當前位置:成語大全網 - 成語詞典 - 語音識別中區分性訓最大似然估計的區別是什麽?

語音識別中區分性訓最大似然估計的區別是什麽?

語音識別系統的壹般架構如左圖,分訓練和解碼兩階段。訓練,即通過大量標註的語音數據訓練聲學模型,包括GMM-HMM、DNN-HMM和RNN+CTC等;解碼,即通過聲學模型和語言模型將訓練集外的語音數據識別成文字。目前常用的開源工具有HTK Speech Recognition Toolkit,Kaldi ASR以及Tensorflow(speech-to-text-wavenet)實現端到端系統。我以古老而又經典的HTK為例,來闡述語音識別領域涉及到的概念及其原理。HTK提供了豐富的語音數據處理,以及訓練和解碼的工具。 語音識別,分為孤立詞和連續詞語音識別系統。早期,1952年貝爾實驗室和1962年IBM實現的都是孤立詞(特定人的數字及個別英文單詞)識別系統。連續詞識別,因為不同人在不同的場景下會有不同的語氣和停頓,很難確定詞邊界,切分的幀數也未必相同;而且識別結果,需要語言模型來進行打分後處理,得到合乎邏輯的結果。