當前位置:成語大全網 - 成語大全 - 語音合成效果的優化

語音合成效果的優化

語音合成技術已經應用到各種實際場景中,大部分問題都可以通過TTS解決。但是有些問題,在特定場景下,播放合成音頻時總會出現壹些錯誤。那麽在設計語音合成產品時,如何避免這些問題,如何優化呢?下面將根據實際問題分析具體解決方案。

1.數字廣播問題

我們經常遇到數字廣播的問題。廣播數字有許多不同的方法。比如1234可以讀作“1234”,也可以用電報讀作“1234”或“1234”或“2234”。所以不同的場景有不同的閱讀方式,需要在當前場景中設置具體的閱讀方式。

1) ?閱讀規則設置

在TTS中,壹些發音可以添加到發音規則中,例如:“您是後綴為4321的所有者嗎?”可以添加“後綴+數字”的閱讀規則,讓數字以數字串的形式播出。還有“數+元”和“數+元”,以數讀的方式播出。所以生活場景中的壹些場景的閱讀方法是獨特的,可以設置閱讀規則使TTS播放正確。

2) ?如何修改文本

在某些場景中,會出現TTS廣播錯誤,比如“請到205房間”,有時會廣播為“205房間”。這時可以在課文的數字前加壹個標點符號來規定讀音,如“!+Numbers”,只是把數字以數字串的形式廣播出來。“請到這裏來!會議室205”可以被廣播為“會議室205”;“*+數字”的規則是按讀號法播報的。《我住20樓》作為《20樓》播出。所以按照符號+數字的方法來保證數字的讀取,在實際應用場景中,如果某些數字廣播方法錯誤,我們可以通過修改文字和添加符號來解決問題,相對簡單。

3)?標記語言之路

語音合成標記語言(SSML)是W3C的語音接口框架的壹部分,它是壹組關於語音應用和在萬維網上構建語音應用的規範。通過SSML,人們可以更多地通過手機、臺式電腦和其他設備收聽合成語音。可以通過標記語言設置數字的閱讀方式,然後將xml格式的標記語言文本傳輸到TTS,合成相應的音頻。

下面是ssml的語法圖。

4)?添加列表

有些場景不方便修改文字內容,比如用戶寫的地址信息,然後直接傳輸到TTS進行語音合成。此文本內容不能添加和修改,但文本上傳後需要修改廣播音頻。前文中提到,當文字轉換為音素時,可以檢測到對應的文字內容,將文字的音頻強制轉換為需要正確播放的拼音,並設置為需要合成的播放聲音,這樣就可以在不修改文字的情況下,正確播放音頻。但是這種方法每次都會按照這個設定的規則進行組合,所以在設定的時候盡量保證文字的唯壹性,可以使用“文字+數字+文字”的形式,這樣當其他場景使用相同的數字時,就不會受到這個設定的影響。

下面列出了在實際場景中廣播數字的壹些方法。

數字閱讀法

數字串行讀取方法

地址

2.多音字問題

在漢語中,多音字和數字壹樣,有多種廣播閱讀方式。這時候就需要壹些優化的方式,讓它們在特定的場景下按照特定的讀音來讀,保證正確播出。優化的方式和數優化的方式基本相同,可以通過設置發音規則、修改文字、標記語言、添加詞匯表來完成。通過結合這些方法,我們可以避免廣播閱讀的常見問題。在產品設計中,需要支持這些優化方法,並且操作簡單,用戶可以自行操作完成TTS優化。

以下是復音姓氏列表。姓氏可以通過使用特定規則或添加標點符號來正確廣播。

3.摘要

?簡要介紹了壹些播音錯誤的優化方法,有些韻律也可以通過上述優化方法進行優化,比如停頓、重讀等節奏韻律變化,可以通過標點和標記語言來實現。也可以用算法優化,但是耗時長,難度大。所以可以在產品設計中加入壹些可以優化的功能,避免壹些播放錯誤,不需要從底層算法進行優化,方便用戶操作,提升用戶體驗。