當前位置:成語大全網 - 漢語詞典 - 語音識別特征提取怎麽入門?

語音識別特征提取怎麽入門?

1.對壹個信號進行傅立葉變換。這壹步其實說的是兩件事:壹是把語音信號分幀,二是對每壹幀做傅立葉變換。因為語音信號變化很快,所以需要成幀,傅立葉變換適合分析平穩信號。在語音識別中,幀長壹般為20~50ms,這樣壹幀中有足夠的循環而不會發生劇烈的變化。每幀信號通常乘以壹個平滑窗函數,使幀兩端平滑衰減為零,這樣可以降低傅裏葉變換後旁瓣的強度,獲得更高質量的頻譜。幀與幀之間的時間差(稱為“幀偏移”)常取為10ms,所以幀與幀之間會有重疊,否則幀與幀之間連接處的信號會因為開窗而減弱,這部分信息就會丟失。為了獲得每壹幀的頻譜,逐幀進行傅立葉變換。通常,只保留振幅譜,而丟棄相位譜。

2.使用三角形重疊窗口,繪制Mel範圍內支持的光譜功率。這壹步做的是將頻譜與下圖中的每個三角形相乘並積分,找出每個三角形下頻譜的能量。此步驟具有以下效果:

1)傅裏葉變換得到的序列很長(壹般是幾百到幾千個點),將其轉化為每個三角形(壹般是40個三角形)下的能量可以減少數據量;

2)頻譜有包絡和精細結構,分別對應音色和音高。對於語音識別來說,音色是主要的有用信息,音高壹般沒什麽用。通過在每個三角形中積分,可以剔除精細結構,只保留音色信息。當然,對於聲調語言,音高也是有用的,所以除了MFCC特征,其他特征也會用來描述音高。

3)三角形低頻密集,高頻稀疏,可以模仿人耳在低頻下的高分辨率。

3.取每個Mel頻率的功率對數。這壹步是取上壹步結果的對數。簡單來說就是縱軸的縮放,可以放大低能時的能量差;更深層次來說,這是在模仿倒譜的計算步驟。倒譜是另壹個話題,這裏不討論。

4.對Mel對數冪列表進行離散余弦變換,就像它是壹個信號壹樣。在這壹步尋找倒譜時仍然使用傅立葉變換。用於計算MFCC的離散余弦變換(DCT)是傅立葉變換的變體,其優點是結果是沒有虛部的實數。DCT的另壹個特點是,對於壹般的語音信號,這壹步結果的前幾個系數特別大,後面的系數比較小,可以忽略。據說壹般取40個三角形,所以DCT的結果也是40個點;實際中壹般只保留前12~20,進壹步壓縮了數據。上述整個過程的結果是,壹幀語音信號被簡單地表示為壹個12~20維向量;整個語音信號被表示為壹系列這樣的向量。語音識別中要做的下壹件事是對這些向量及其序列進行建模。