語音識別技術的原理是將人的話音轉換成聲音信號,經過特殊處理,與計算機中已存儲的已有聲音信號進行比較,然後反饋出識別的結果。其關鍵在於將人的話音轉換成聲音信號的準確性,以及與原有聲音信號比較時的智能化程度。語音識別技術是人工智能的有機組成部分。
這種輸入法的好處是不再用手去輸入,把雙手解放出來,只要會讀出漢字的讀音即可,但是受每個人漢字發音的限制,不可能都滿足語音識別軟件的要求,因此在實際應用中錯誤率較鍵盤輸入高。特別是壹些專業技術方面的語言,識別系統幾乎不能確認,錯誤率較高。
目前,主流的大詞匯量語音識別系統多采用統計模式識別技術。典型的基於統計模式識別方法的 語音識別系統由以下幾個基本模塊所構成
信號處理及特征提取模塊。該模塊的主要任務是從輸入信號中提取特征,供聲學模型處理。同時,它壹般也包括了壹些信號處理技術,以盡可能降低環境噪聲、信道、說話人等因素對特征造成的影響。 統計聲學模型。典型系統多采用基於壹階隱馬爾科夫模型進行建模。 發音詞典。發音詞典包含系統所能處理的詞匯集及其發音。發音詞典實際提供了聲學模型建模單元與語言模型建模單元間的映射。 語言模型。語言模型對系統所針對的語言進行建模。理論上,包括正則語言,上下文無關文法在內的各種語言模型都可以作為語言模型,但目前各種系統普遍采用的還是基於統計的N元文法及其變體。 解碼器。解碼器是語音識別系統的核心之壹,其任務是對輸入的信號,根據聲學、語言模型及詞典,尋找能夠以最大概率輸出該信號的詞串。 從數學角度可以更加清楚的了解上述模塊之間的關系。首先,統計語音識別的最基本問題是,給定輸入信號或特征序列,符號集(詞典),求解符號串使得:
W = argmaxP(W | O) 通過貝葉斯公式,上式可以改寫為
由於對於確定的輸入串O,P(O)是確定的,因此省略它並不會影響上式的最終結果,因此,壹般來說語音識別所討論的問題可以用下面的公式來表示,可以將它稱為語音識別的基本公式。 W = argmaxP(O | W)P(W)
從這個角度來看,信號處理模塊提供了對輸入信號的預處理,也就是說,提供了從采集的語音信號(記為S)到 特征序列O的映射。而聲學模型本身定義了壹些更具推廣性的聲學建模單元,並且提供了在給定輸入特征下,估計P(O | uk)的方法。
為了將聲學模型建模單元串映射到符號集,就需要發音詞典發揮作用。它實際上定義了映射的映射。為了表示方便,也可以定義壹個由到U的全集的笛卡爾積,而發音詞典則是這個笛卡爾積的壹個子集。並且有:
最後,語言模型則提供了P(W)。這樣,基本公式就可以更加具體的寫成:
對於解碼器來說,就是要在由,,ui以及時間標度t張成的搜索空間中,找到上式所指明的W。
語音識別是壹門交叉學科,語音識別正逐步成為信息技術中人機接口的關鍵技術,語音識別技術與語音合成技術結合使人們能夠甩掉鍵盤,通過語音命令進行操作。語音技術的應用已經成為壹個具有競爭性的新興高技術產業。
與機器進行語音交流,讓機器明白妳說什麽,這是人們長期以來夢寐以求的事情。語音識別技術就是讓機器通過識別和理解過程把語音信號轉變為相應的文本或命令的高技術。語音識別是壹門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,語音識別技術將進入工業、家電、通信、汽車電子、醫療、家庭服務、消費電子產品等各個領域。語音識別聽寫機在壹些領域的應用被美國新聞界評為1997年計算機發展十件大事之壹。很多專家都認為語音識別技術是2000年至2010年間信息技術領域十大重要的科技發展技術之壹。