這個介紹主要基於本文的附錄“Wave Net:Raw Audio的生成模型”。論文的鏈接如下:blogs.com/BaroC/p/4283380.html.
對於神經網絡的算法,壹般是基於softmax分類器生成256個量化值,對應聲音的256個量化值。WaveRNN和wavenet就是這樣生成的。
以下是我學習語音合成的壹些資料,其中強烈推薦斯坦福cs224s,但是這個講義的邏輯不是很清楚,反復看了就明白了。
Ucsb數字語音處理教程,聲音信號處理基礎。建議看壹下。鏈接如下。/view/68 fbf 1a4f 61fb 7360 b4c 658 b . html