語音識別簡介

壹.概念

語音識別是指將聲音內容轉換成文字的技術。

它是壹門交叉學科，非常復雜，需要生理學、聲學、信號處理、計算機科學、模式識別、語言學、心理學等相關學科的知識。

第二，發展

隨著科技的發展，語音識別技術在理論和應用上都取得了很大的突破，在日常生活中的應用越來越多。比如智能家居、車載娛樂、語音識別聽寫器、語音尋呼應答平臺、智能客服等等。

三、簡單適用原則

通常語音識別有兩種工作模式，即喚醒模式和識別模式。所謂喚醒模式，就是應用處於等待喚醒的狀態。這個狀態引擎會壹直在後臺錄音，判斷是否有喚醒詞。如果識別出喚醒詞，它將切換到識別模式。所謂識別模式，就是把我們說的語音轉換成特定格式的文字和壹段數據，也就是把識別出來的語音結構化。處理後通常以json的形式提供給外部應用進行重新解析，用來滿足應用自身的功能。

比如壹些支持語音功能的智能家居，先喚醒應用(比如蕭艾的同學)，再說出指令(比如開空調)。語音識別引擎識別語義，並將結果(json數據)交給APP，APP對結構化語義進行分類。再比如，妳要查天氣，語音說“明天天氣怎麽樣”。識別引擎會根據位置信息，在線搜索相關天氣信息，提供給APP。

註意:

喚醒詞(Wake-up word):用於喚醒應用程序的特定語音，如“hi，siri”，通常可以由用戶自定義。