特征提取模式匹配語音識別類比:語音識別的第壹步就是語音特征提取。
語音識別的第壹步就是語音特征提取,語音信號是在人體中肺喉聲道等器官構成的語音產生系統中產生的,它是壹個高度不平穩的信號,它的幅度譜和功率譜也隨著時間不停的變化,但是在足夠短的時間內,其頻譜特征相當平穩。
因此在進行語音分析時,我們大多時候采用分幀的方式進行短時的分析,使用幀長為25ms,幀移為10ms的方式進行分幀,並且計算出每幀內的功率譜進行其他的操作。功率譜在壹些特征提取技術中得到應用,比如MFCC,Fbank。
基本原理:
所謂語音識別,就是將壹段語音信號轉換成相對應的文本信息,系統主要包含特征提取、聲學模型,語言模型以及字典與解碼四大部分,其中為了更有效地提取特征往往還需要對所采集到的聲音信號進行濾波、分幀等預處理工作。
把要分析的信號從原始信號中提取出來之後,特征提取工作將聲音信號從時域轉換到頻域,為聲學模型提供合適的特征向量聲學模型中再根據聲學特性計算每壹個特征向量在聲學特征上的得分而語言模型則根據語言學相關的理論,計算該聲音信號對應可能詞組序列的概率最後根據已有的字典,對詞組序列進行解碼,得到最後可能的文本表示。