1,技術的新發展
1)將機器學習領域的深度學習研究引入到語音識別聲學模型的訓練中,使用帶有RBM預訓練的多層神經網絡,大大提高了聲學模型的精度。在這方面,微軟公司的研究人員率先取得了突破。使用深度神經網絡模型(DNN)後,語音識別的錯誤率下降了30%,是近20年來語音識別技術進步最快的壹次。
2)目前大多數主流的語音識別解碼器都采用了基於有限狀態機(WFST)的解碼網絡,可以將語言模型、字典和聲學* * *享受詞集集成到壹個大的解碼網絡中,大大提高了解碼速度,為語音識別的實時應用提供了基礎。
3)隨著互聯網的快速發展和手機等移動終端的普及應用,目前可以從多個渠道獲得大量的文本或語音語料庫,為語音識別中語言模型和聲學模型的訓練提供了豐富的資源,使得構建通用的大規模語言模型和聲學模型成為可能。在語音識別中,訓練數據的匹配性和豐富性是提升系統性能的最重要因素之壹,但語料的標註和分析需要長期的積累和沈澱。隨著大數據時代的到來,大規模語料庫資源的積累將被提升到戰略高度。
2.技術的新應用
最近語音識別在移動終端的應用最火,語音對話機器人、語音助手、交互工具層出不窮。很多互聯網公司都投入了人力、物力、財力進行這方面的研究和應用,目的是通過語音交互這種新穎便捷的模式快速占領客戶群。
目前蘋果的siri在國外壹直是領先的應用。
國內的科大訊飛、雲知聲、盛大、捷通華聲、搜狗語音助手、紫東翻譯機、百度語音等系統都采用了最新的語音識別技術,市面上其他相關產品也直接或間接嵌入了類似技術。