誰來告訴我們語音識別中CTC方法的基本原理？

傳統的語音識別系統由語音模型、詞典和語言模型組成，其中語音模型和語言模型是分開訓練的。這就造成了每個部分的訓練目標(語音模型的似然性和語言模型的困惑性)與整個系統的訓練目標(單詞錯誤率)不壹致。

使用CTC後，從語音特征(輸入端)到文本串(輸出端)只有壹個神經網絡模型(這個叫“端到端”模型)，這個神經網絡可以直接用WER的某個代理作為目標函數進行訓練，避免浪費無用功去優化另壹個目標函數。