流程:輸入-編碼-解碼-輸出
語言識別的輸入是聲音,屬於計算機無法識別的模擬信號,需要通過模型轉換成數字信號,提取其特征。編碼時,聲音會被切割成非常小的片段,成為幀,類似於視頻中時間單位最小的幀。幀之間會有壹些重疊。
對於每壹幀,根據人類聽覺的特定MCFF規則,提取特征並轉換成多維向量。向量中的每個維度可以被視為該幀中的壹個特征。
解碼過程就是把得到的矢量轉換成文字的過程,其中用到聲學模型和語言模型兩種模型。聲學模型是將特征向量轉化為單個字母(漢語語音聲母和韻母),成為音素。語言模型是將音位拼接成單詞或漢字。兩個模型都需要大量的語言數據進行訓練。
傳統識別方法:隱馬爾可夫模型(HMM)
端到端識別方法:DNN(深度神經網絡)。
兩種識別方法的主要區別在於聲學模型。
目前中文的識別率在97%以上,離理想的99%相差甚遠。
《遠場》。這裏有三個概念:
語音激活檢測、語音喚醒和麥克風陣列。
1)語音主動檢測(VAD)
a)需求背景:在近場識別場景下,比如使用語音輸入法時,用戶可以用手按住語音鍵說話,然後放開。由於近場情況下信噪比高,信號清晰,算法簡單有效可靠。
但在遠場識別場景下,用戶無法用手觸摸設備。此時噪聲比較大,信噪比急劇下降,必須使用VAD。
b)定義:判斷什麽時候有語音,什麽時候沒有語音(靜音)。
後續的語音信號處理或語音識別都是對VAD截獲的有效語音片段進行的。
2)語音觸發
a)需求背景:在近場識別中,用戶可以點擊按鈕直接說話,但在遠場識別中,VAD檢測到人聲後需要語音喚醒,相當於呼喚這個AI(機器人)的名字來引起ta的註意,比如蘋果的“Hey Siri”,谷歌的“OK Google”,亞馬遜Echo的“Alexa”。
b)定義:可以理解為罵人,以引起聽者的註意。
VT判斷是喚醒(激活)字,所以後續的語音要識別;否則,不識別。
c)難度:語音識別無論是遠場還是外場,都在雲端進行,但語音喚醒基本都是在本地進行,要求更高。
C.1)喚醒響應時間。據傅盛介紹,全球所有音箱,除了他們做的Echo和瀟雅智能音箱能達到1.5秒,其他的都在3秒以上。
C.2)低功耗。iphone 4s就出現了Siri,但直到iphone 6s才允許不接電源直接叫“嘿Siri”進行語音喚醒。這是因為6s上有專門用於語音激活的低功耗芯片。當然,算法和硬件要協調,算法要優化。
C.3)喚醒效應。叫它的時候它不答應,這叫遺漏,不叫它的時候它跳出來說話,這叫虛驚壹場。假陽性和假陰性這兩個指標正在發生變化。比如,喚醒詞數量多,誤報就少,漏報就多;如果喚醒詞的數量很短,誤報就會少,特別是半夜突然唱歌或者講故事,會特別嚇人...
C.4)喚醒詞。技術上來說,壹般至少是3個音節。例如,“OK google”和“Alexa”有四個音節,“hey Siri”有三個音節。在國內的智能音箱,比如瀟雅,喚醒詞是“瀟雅瀟雅”,但不能用“瀟雅”。
註:壹般產品經理或行業溝通直接說中文“語音喚醒”,而英文縮寫“VT”可能更多是技術人員使用。
3)麥克風陣列
a)需求背景:在會議室、室外、商場等各種復雜環境下,會出現噪音、混響、人聲幹擾、回聲等各種問題。尤其是在遠場環境下,要求拾音麥克風的靈敏度高,才能在遠距離獲得有效的音頻幅度,同時在近場環境下無法實現音爆(幅度超過最大量化精度)。此外,家庭環境中墻壁反射形成的混響對語音質量也有明顯的影響。
b)定義:由壹定數量的聲學傳感器(通常是麥克風)組成的系統,用於對聲場的空間特性進行采樣和處理。
c)以雲為主。
比如地圖功能,由於POI(興趣點)數據量巨大,直接在雲端搜索可能更方便(除非是“家”、“公司”等個性化場景)。比如用戶說“從武漢火車站到東府”可以更正為“從武漢火車站到東湖”。
公司宣傳的時候會說語音識別率已經達到97%,甚至98%,但那壹般需要用戶在安靜的環境中近距離、緩慢、仔細、清晰地發音;在壹些實際場景中,它可能不夠好,例如-
1比如大家認為相對容易做到的翻譯場景,其實並不完全具備。臺上演示是壹回事,普通用戶用起來是另壹回事;尤其是壹些垂直行業,領域知識容易出錯;另外,請參考那些假機的同傳。
2、汽車
大概3、4年前,我們做了壹個汽車場景的語言助手demo,拿到真實場景中驗證。結果發現在車上語音識別的效果非常不理想。而且直到今年,我曾經采訪過壹個做車內語音交互系統的產品經理,發現他們的驗收方其實並沒有特別嚴格的測試,因為大家都知道,絕對不會通過。。。
汽車語音識別有很多難點,除了很多人說話的幹擾,還有胎噪,風噪,經常離線。
據說有的公司專門做汽車降噪,有的公司想通過智能硬件解決。至少目前,似乎還沒有壹款產品解決了這個問題,贏得了用戶的好評。
3,家庭場景,因為相對安靜可控,如果遠場做好了,還是有希望的。
4.漢語和英語是混合的。
尤其是在聽歌的場景下,用戶說要聽壹首英文歌,很容易識別錯誤。在這方面,只有傅盛的瀟雅音箱據說做了很多優化,需要用戶測試。
總之,ASR是目前AI領域最接近商業化成熟的技術,但在具體場景下仍需要用戶配合AI。這是個問題嗎?是個問題,但實際上並不影響我們的產品演示和前期產品化工作,所以是我們AI產品經理發揮的機會。
1,遠場語音識別,是最近兩年重要的競爭領域。因為家庭(音箱)之類的場景可能做得很好,正在催熟。
2.比較好的機會在垂直細分領域,比如方言(方言識別可以支持40多種,百度有20多種)和針對特定人群(兒童)的聲學匹配方案。
最後用壹張圖總結了語音識別在人機交互中的幾個難點。