早在計算機發明之前,自動語音識別的想法就已經提上日程,而早期的聲碼器可以視為語音識別和合成的雛形。1920年代生產的Radio Rex玩具狗可能是最早的語音識別器。當狗的名字被叫到時,它會從底座上跳出來。最早的基於計算機的語音識別系統是由AT & amp;T Bell實驗室開發的Audrey語音識別系統,可以識別10個英文數字。其識別方法是跟蹤語音中的* * *振動峰值。該系統的準確率達到98%。。到1950年代末,倫敦大學學院的Denes已經為語音識別增加了語法概率。
1960年代,人工神經網絡被引入語音識別。這個時代的兩大突破是線性預測編碼(LPC)和動態時間彎曲技術。
語音識別技術最重要的突破是隱馬爾可夫模型的應用。經過Labiner等人的研究,卡內基梅隆大學的李開復最終實現了首個基於隱馬爾可夫模型的大詞匯量語音識別系統Sphinx。。從那時起,嚴格地說,語音識別技術並沒有偏離HMM框架。
盡管研究人員多年來壹直在努力普及“聽寫機”,但目前語音識別技術還無法支持不限領域、不限說話人的聽寫機應用。