如何解釋語音識別的技術原理?
語音識別作為人工智能的壹個重要入口,越來越受歡迎。從JD.COM和科大訊飛合作的丁咚,到亞馬遜的明星產品Echo,再到最近幾個月Google Master和百度的人機大戰,我們賺足了眼球。但語音只是壹個入口,內容或者引導用戶決策甚至消費才是王道。語音識別系統分為兩個階段:訓練和解碼。訓練,即通過大量標註的語音數據訓練聲學模型,包括GMM-HMM、DNN-HMM和RNN+CTC等。解碼,即通過聲學模型和語言模型將訓練集外的語音數據識別成單詞。目前常用的開源工具有HTK語音識別工具包、Kaldi ASR以及基於TensorFlow(語音轉文字波網)的端到端系統。我以古老而經典的HTK為例,來解釋語音識別領域所涉及的概念和原理。HTK為語音數據處理、訓練和解碼提供了豐富的工具。語音識別分為孤立詞和連續詞語音識別系統。早期,1952的貝爾實驗室和1962的IBM都實現了孤立詞識別系統(特定人的數字和單個英語單詞)。連續單詞識別,由於不同的人在不同的場景下會有不同的聲調和停頓,所以單詞邊界很難確定,分段幀數也不壹定相同;而且識別結果需要語言模型在評分後進行處理,才能得到符合邏輯的結果。