語音識別過程
1語音信號采集
語音信號采集是語音信號處理的前提。聲音通常通過麥克風輸入計算機。麥克風將聲波轉換為電壓信號,然後通過A/D設備(如聲卡)進行采樣,從而將連續的電壓信號轉換為計算機可以處理的數字信號。
目前,多媒體電腦已經非常普及,聲卡、揚聲器和麥克風已經成為個人電腦的基本設備。其中,聲卡是計算機處理語音信號的重要部件,具有信號濾波、放大、A/D和D/A轉換等功能。此外,現代操作系統配有錄音軟件,可以驅動聲卡收集語音信號並將其保存為語音文件。
目前,基於單片機和DSP芯片的語音信號采集處理系統廣泛應用於惡劣的現場環境或有限的空間,尤其是許多特殊設備。
2、語音信號預處理
語音信號采集後,必須經過濾波、A/D轉換、預加重和端點檢測等預處理才能用於識別、合成和增強等實際應用。
濾波的目的有兩個:壹是抑制輸入信號中頻率超過//2(//:是采樣頻率)的所有分量,以防止混疊幹擾;二是抑制50Hz工頻幹擾。因此,濾波器應為帶通濾波器。
A/D轉換是將語音模擬信號轉換為數字信號。信號應該在A/D轉換中進行量化,量化後的信號值與原始信號值之間的差異就是量化誤差,也稱為量化噪聲。
預加重處理的目的是改善高頻部分,使信號的頻譜平坦,保持在從低頻到高頻的整個頻帶內,並找到信噪比相同的頻譜,便於頻譜分析。
端點檢測是從包含語音的信號中確定語音的起點和終點。有效的端點檢測不僅可以減少處理時間,還可以消除無聲片段中的噪聲幹擾。目前主要有兩種方法:時域特征法和頻域特征法。
時域特征法利用語音音量和過零率檢測端點,計算量較小,但會造成對空氣聲的誤判,不同的音量計算也會造成不同的檢測結果。頻域特征法利用聲譜變化和熵檢測來檢測語音,計算量大。
3.語音信號的特征參數提取。
人類說話的頻率在10kHz以下。根據香農采樣定理,為了使語音信號的采樣數據包含所需單詞的信息,計算機的采樣頻率應該是要記錄的語音信號中包含的最高語音頻率的兩倍以上。
通常,信號被分成幾個塊,信號的每個塊被稱為壹幀。為了確保可能落在幀邊緣的重要信息不會丟失,幀應該重疊。例如,當使用20kH的采樣面積率時,標準幀為10ms,包含200個采樣值。
語音輸入設備(如麥克風)可以收集聲音波形。雖然這些聲音波形包含了所需單詞的信息,但我們用肉眼觀察這些波形並不能獲得太多信息。因此,有必要從采樣數據中提取能夠幫助區分單詞的特征信息。在語音識別中,通常使用線性預測編碼技術來提取語音特征。
線性預測編碼的基本思想是語音信號的采樣點之間存在相關性,可以通過過去幾個采樣點的線性組合來預測當前和未來的采樣點值。通過最小化預測信號和實際信號之間的均方誤差來唯壹地確定線性預測系數。
語音線性預測系數作為語音信號的特征參數,已經廣泛應用於語音處理的各個領域。
4.定向量化
矢量量化(VQ)技術是20世紀後期開發的壹種數據壓縮和編碼技術。向量量化特征向量也可以用作隱馬爾可夫模型中的輸入觀察符號。
在標量量化中,整個動態範圍被分成幾個單元,每個單元都有壹個代表值。對於輸入標量信號,量化期間落在像元之間的值用作此代表值》:【Getty。因為此時的信號量是壹維標量,所以稱為標量量化。
矢量量化的概念是從線性空間的觀點出發,通過將標量變為壹維矢量來量化矢量。與標量量化壹樣,矢量量化將向量空間劃分為若幹個小區域,每個小區域尋找壹個代表向量,在量化過程中落入小區域的向量將被該代表向量替換。
矢量量化的基本原理是將幾個標量數據組合成壹個矢量(或從壹幀語音數據中提取的特征矢量)在多維空間中進行量化,從而可以在較少信息損失的情況下壓縮數據量。
語音識別
1、模板匹配法
在訓練階段,用戶依次說出詞匯表中的每個單詞,並將其特征向量作為模板存儲在模板庫中。在識別階段,將輸入語音的特征向量序列依次與模板庫中的每個模板進行比較,將相似度最高的模板作為識別結果輸出。
2.隨機模型方法
隨機模型方法是目前語音識別研究的主流。其傑出代表是隱馬爾可夫模型。語音信號的信號特征在足夠短的時間內是近似穩定的,整個過程可以看作是從壹個相對穩定的特征到另壹個相對穩定的特征的過渡。隱馬爾可夫模型使用概率統計來描述這樣壹個時變過程。
3.概率語法分析方法
這種方法用於遠距離連續語音識別。通過研究不同語音的頻譜圖及其變化,語音學家發現盡管不同的人講相同的語音,對應的頻譜圖及其變化是不同的,但總有壹些相似之處使其區別於其他語音,即語音學家提出的“區別特征”。
另壹方面,人類語言受到詞法、語法和語義的約束,人們在識別語音的過程中充分利用這些約束和對話環境的相關信息。
因此,將語音識別專家提出的“區別特征”與構詞法、句法和語義等語用約束相結合,可以形成自下而上或自上而下的交互式知識體系,不同層次的知識可以由若幹規則來描述。