語音合成,也叫文語轉換技術,可以將任何文本信息實時轉換成標準流暢的語音,相當於在機器上安裝了壹個人造嘴巴。它涉及聲學、語言學、數字信號處理、計算機科學等學科,是中文信息處理領域的前沿技術。要解決的主要問題是如何將文本信息轉換成可聽見的聲音信息,即讓機器像人壹樣說話。我們所說的“讓機器像人壹樣說話”,與傳統的聲音播放設備(系統)有著本質的區別。傳統的聲音回放設備(系統),如錄音機,通過預先錄制聲音,然後回放來實現“讓機器說話”。這種方式在內容、存儲、傳輸、便捷性、時效性等方面都有很大的局限性。而通過計算機語音合成,任何文本都可以隨時轉換成高自然度的語音,從而真正讓機器“像人壹樣說話”。文本到語音轉換系統實際上可以看作是壹個人工智能系統。要想合成出高質量的語言,除了依靠各種規則,包括語義規則、詞匯規則、語音規則,還必須對單詞的內容有很好的理解,這也涉及到對自然語言的理解。下圖顯示了文本到語音轉換系統的完整示意圖。文語轉換的過程是先將文本序列轉換成音韻序列,然後系統根據音韻序列生成語音波形。第壹步涉及語言處理,如分詞和語音轉換,以及壹套有效的韻律控制規則;第二步需要先進的語音合成技術,可以根據需要實時合成高質量的語音流。因此,壹般來說,文語轉換系統需要壹套復雜的從文本序列到音素序列的轉換程序,也就是說,文語轉換系統不僅要應用數字信號處理技術,還要有大量語言學知識的支持。