當前位置:成語大全網 - 新華字典 - 語音識別有什麽好的?

語音識別有什麽好的?

解釋了基本的經典語音識別算法。我想簡單解釋壹下算法背後的意義。相關的特征提取(包括分幀)、音素建模、字典、隱馬爾可夫模型,請參考樓上的回答。語音識別的第壹個特點是,要識別的語音內容(與元音等相比。)是不確定的時間序列,也就是說妳無法知道當前元音在識別前有多長,所以在構造統計模型時無法簡單地確定語音識別是輸入0.0到0.5秒還是0.2到0.8秒,而且大多數常見的模型都不方便處理維數不確定的輸入特征(註意時間長度轉換成簡單的解決方法就是對語音進行幀化, 每壹幀占用壹個相對短且固定的時間(比如25ms),然後假設這樣壹幀足夠長(可以包含足夠的信息來判斷它屬於哪個元音)且穩定(便於短時傅立葉分析),這樣就可以把每壹幀轉換成壹個特征向量,(反過來)識別它們屬於哪個元音來解決問題。 識別的結果可以是,例如,幀100到105是聲母c,而幀106到115是韻母eng等。這種思維有點類似微積分中的“以直代曲線”。此外,在實際取景過程中,還有很多常見的技巧,比如相鄰兩幀之間的重疊,或者引入