語音合成概述

語音合成是壹種使用電子計算機和壹些特殊設備來模擬人並發出語音的技術。語音合成和語音識別技術是實現人機語音交流，建立具有聽說能力的口語語言系統所必需的兩項關鍵技術。讓計算機擁有和人壹樣的說話能力，是信息產業重要的競爭市場。相比語音識別，語音合成的技術相對成熟，已經開始成功走向產業化，大規模應用指日可待。

語音合成，也叫文語轉換技術，可以將任何文本信息實時轉換成標準流暢的語音，相當於在機器上安裝了壹個人造嘴巴。它涉及聲學、語言學、數字信號處理、計算機科學等學科，是中文信息處理領域的前沿技術。要解決的主要問題是如何將文本信息轉換成可聽見的聲音信息，即讓機器像人壹樣說話。我們所說的“讓機器像人壹樣說話”，與傳統的聲音播放設備(系統)有著本質的區別。傳統的聲音回放設備(系統)，如錄音機，通過預先錄制聲音，然後回放來實現“讓機器說話”。這種方式在內容、存儲、傳輸、便捷性、時效性等方面都有很大的局限性。而通過計算機語音合成，任何文本都可以隨時轉換成高自然度的語音，從而真正讓機器“像人壹樣說話”。文本到語音轉換系統實際上可以看作是壹個人工智能系統。要想合成出高質量的語言，除了依靠各種規則，包括語義規則、詞匯規則、語音規則，還必須對單詞的內容有很好的理解，這也涉及到對自然語言的理解。下圖顯示了文本到語音轉換系統的完整示意圖。文語轉換的過程是先將文本序列轉換成音韻序列，然後系統根據音韻序列生成語音波形。第壹步涉及語言處理，如分詞和語音轉換，以及壹套有效的韻律控制規則；第二步需要先進的語音合成技術，可以根據需要實時合成高質量的語音流。因此，壹般來說，文語轉換系統需要壹套復雜的從文本序列到音素序列的轉換程序，也就是說，文語轉換系統不僅要應用數字信號處理技術，還要有大量語言學知識的支持。