語音識別(speech recognition) 利用計算機自動對語音信號的音素、音節或詞進行識別的技術總稱。語音識別是實現語音自動控制的基礎。
語音識別起源於20世紀50年代的“口授打字機”夢想,科學家在掌握了元音的***振峰變遷問題和輔音的聲學特性之後,相信從語音到文字的過程是可以用機器實現的,即可以把普通的讀音轉換成書寫的文字。語音識別的理論研究已經有40多年,但是轉入實際應用卻是在數字技術、集成電路技術發展之後,現在已經取得了許多實用的成果。
語音識別壹般要經過以下幾個步驟:①語音預處理,,包括對語音的幅度標稱化、頻響校正、分幀、加窗和始末端點檢測等內容。②語音聲學參數分析,包括對語音***振峰頻率、幅度等參數,以及對語音的線性預測參數、倒譜參數等的分析。③參數標稱化,主要是時間軸上的標稱化,常用的方法有動態時間規整(DTW),或動態規劃方法(DP)。④模式匹配,可以采用距離準則或概率規則,也可以采用句法分類等。⑤識別判決,通過最後的判別函數給出識別的結果。
語音識別可按不同的識別內容進行分類:有音素識別、音節識別、詞或詞組識別;也可以按詞匯量分類:有小詞匯量(50個詞以下)、中詞量(50~500個詞)、大詞量(500個詞以上)及超大詞量(幾十至幾萬個詞)。按照發音特點分類:可以分為孤立音、連接音及連續音的識別。按照對發音人的要求分類:有認人識別,即只對特定的發話人識別,和不認人識別,即不分發話人是誰都能識別。顯然,最困難的語音識別是大詞量、連續音和不識人同時滿足的語音識別。