TN全稱Text Normalization,意思是文本規整、文本正則化 。
TN是 TTS (Text-to-speech,文本轉語音) 系統中的重要組成部分,主要功能是將文本中的數字、符號、縮寫等轉換成語言文字。如:
20% >> 在中文TTS系統裏會被轉換成“百分之二十”,在英文TTS系統裏則會被轉換成“twenty percent”。 15:02 >> 可能被轉換成“十五點零二分”(現在是15:02),也可能被轉換成“十五比二”(AC米蘭以15:02暫時領先)。
由此可以看出TN會根據語境對同壹文本進行不同的轉換。
擴展資料中文文本正則化(Text Normalization)是把非漢字字符串轉換為漢字字符串以確定其讀音的過程。文本正則化在語音合成、語音識別、機器翻譯、主題檢測、文本挖掘等領域有著重要應用。
加權有限狀態轉換器(Weighted Finite StateTransducer,WFST)是壹種很好的規則與統計相結合的技術,本文以WFST為框架,設計並實現了壹個中文文本正則化系統。
中文文本正則化所設計的文本正則化系統主要由三個模塊構成:規則集合,詞典和語言模型。本文利用合成(Composition)算法對各層模型進行合並,並使用WFST的確定化(Determination)、最小化(Minimization)算法對搜索網絡進行優化。
百度百科--TN