當前位置:成語大全網 - 新華字典 - Python語音合成(日文翻譯)

Python語音合成(日文翻譯)

原文:

Python version

ttslearn のインストール

ttslearn の動作確認

パッケージのインポート

描畫周りの設定

NumPy と Torch を用いた配列の作成

numpy.ndarray と torch.Tensor のインタフェースの違い

numpy.ndarray と torch.Tensor の相互変換

numpy.ndarray と torch.Tensor のメモリ***有

scipy.io.wavfile を利用した音聲ファイルの読み込み

音聲の可視化

窓関數

短時間フーリエ変換の実裝

短時間フーリエ変換の結果の可視化

librosa.stft を用いた短時間フーリエ変換

librosa.stftは、STFTを実行する前にデフォルトで信號の冒頭と末尾にパディング処理を行います。前述のSTFT実裝はこの処理をサポートしていないため、同等のSTFTの結果を得るためには、center=Falseとしてパディング処理を行わないように設定します。

時間解像度と周波數解像度のトレードオフ

逆短時間フーリエ変換による音聲の復元

メルフィルタバンク

メルスペクトログラムの計算

Griffin-Lim のアルゴリズムに基づく位相復元

瞬時周波數の可視化 (bonus)

Griffin-Limのアルゴリズムは、位相復元手法です。合成音聲と自然音聲の瞬時位相(位相の時間微分)を比較することで、位相復元が期待通り行われているかを視覚的に確認できます。

翻譯:

Python 版本

ttslearn 的安裝

ttslearn 的操作確認

導入程序包

設置繪圖格式

使用NumPy和Torch創建數組

numpy.ndarray和torch.Tensor之間的接口差異

numpy.ndarray和torch.Tensor的相互轉換

numpy.ndarray和torch.Tensor的內存***享

使用scipy.io.wavfile讀取音頻文件

語音可視化

窗函數

短時傅立葉變換的實現

短時傅立葉變換結果的可視化

使用librosa.stft的短時傅立葉變換

缺省情況下,librosa.stft在執行STFT(短時傅裏葉變換)之前會對信號的開頭和結尾進行填充。 由於上面提到的STFT實現不支持此操作,因此要獲得等效的STFT結果,請將填充操作設置為center=False。

在時間分辨率和頻率分辨率間權衡取舍

通過逆短時傅立葉變換進行語音的復原

郵件過濾器組

計算質譜圖

基於Griffin-Lim算法的相位復原

瞬時頻率可視化(bonus)

Griffin-Lim的算法是壹種相位恢復方法。 通過比較合成語音和自然語音的瞬時相位(相位的時間微分),我們可以直觀地看到相位恢復是否按預期進行。