語音雲百度語音開放介紹

憑借語音核心技術的長期積累，百度為開發者提供了業界領先的語音技術服務。百度語音技術之前已經應用在很多自己的產品上。10年6月25日，百度正式宣布對外開放語音技術。通過百度語音技術服務，開發者可以輕松獲取強大的語音技術能力，拋開復雜的技術細節，專註於業務邏輯優化，快速搭建各種語音交互應用。開發者可以在百度開發者中心申請開發自己的語音應用。

永久免費深度定制

在2013年8月22日的百度世界大會上，百度宣布全面開放語音識別技術和能力。在百度的引領下，圍繞語音識別的新體系和大數據生態正式開始在移動互聯網領域大放異彩。時隔兩個月，百度語音識別SDK正式發布，這是最吸引應用開發者的。可以為開發者提供長文本語音輸入、語音搜索詞識別、垂直領域識別等多方面的語音識別服務。此外，語音識別SDK還支持“盡快說話”的技術，在用戶輸入語音的同時，向用戶返回連續的中間結果，提升用戶體驗。最吸引人的是，相比其他同類語音識別技術，百度將無條件向開發者免費開放整個語音生態，支持針對不同應用的深度定制。

據了解，百度語音識別SDK剛剛開始分發，和很多手機應用都有合作，包括彩虹巴士。通過“永久免費”和“深度定制”的合作理念，獲得了開發者的壹致好評。未來，百度將繼續為應用開發者開放語義理解、TTS(語音合成)等多項服務，包括支持用戶定制語音識別，幫助開發者定制自己的語音應用。

百度語音開放平臺將為用戶提供更多便利，讓用戶解放雙手，真正實現完全語音操控。也能讓更多的移動開發者享受到技術進步帶來的紅利，走上快樂創業的道路。

各路巨頭與百度語音深度合作

福特汽車公司表示:

首先，福特汽車公司不僅是壹家汽車公司，更是壹家科技公司，致力於為消費者創造有趣、安全的駕駛體驗。調查顯示，移動出行已經成為越來越重要的生活和工作方式，對於旅途中的移動通信，對智能辦公的需求也越來越多樣化。福特開發了SYNC車載多媒體通信和娛樂系統，支持MyFord Touch的功能。這套智能互聯系統讓駕駛者只需通過語音指令就能輕松控制車內影音娛樂、溫度調節等功能。在此基礎上，我們為中國市場推出了SYNC。AppLink？實現智能手機應用程序和配備AppLink的車輛之間更好的互聯。這樣，通過AppLink，車主可以將智能手機連接到汽車上，在駕駛座上使用福特SYNC語音命令連接系統來控制智能手機上的應用程序。

我們這次與百度合作的目標是，讓用戶在開車的同時，通過百度強大的語音應用能力，實現與外界的無縫連接，同時眼睛盯著路面，手握方向盤。如果這壹塊能做好，未來可以想象的空間會很大。比如我開車去另壹個城市，這個城市現在的天氣狀況如何？通過和百度的合作，我們可以直接語音查詢，而不用聽廣播或者停車打開天氣app來查詢。類似的場景還有很多，也需要兩個行業不斷的碰撞和創新。

中興手機表示:

作為全球最大的手機終端廠商之壹，中興通訊壹直認為最終目標是為用戶創造完美體驗。這壹次，我們要打造的產品是專門為開車用戶設計的。這款產品的最終目的是希望人們能夠在汽車環境下實現手機操作的免提，汽車環境下經常使用的手機功能全部通過語音控制實現。

我們對合作夥伴有兩個要求，壹是語音技術要過硬，二是要有相應的資源，尤其是地圖和導航。如果語音和資源的提供者分屬兩家公司，這個產品幾乎不可能完成，百度是所有互聯網公司中唯壹符合要求的。經過我們的測試，百度的語音識別技術已經達到了壹流的水平，滿足了我們對語音喚醒和離線識別的要求。除了語音技術，百度還可以提供導航資源。

康佳電視臺表示:

智能電視是未來的趨勢，未來將成為家庭智能媒體中心，而康佳作為電視行業的強勢力量，也早早註意到了這壹點。我們認為，智能電視不僅僅是內容觀看模式的改變，更是人機交互的革命。傳統的遙控器已經遠遠不能滿足智能電視用戶的需求，語音交互已經成為智能電視的最佳交互方式。通過語音控制換臺、設置各種功能、搜索視頻資源，已經成為智能電視的標配。我們甚至可以根據語音判斷用戶的屬性，然後為用戶提供不同的內容。同時，電視作為家庭智能媒體中心，不僅可以用來觀看，還可以用來玩遊戲、購物、搜索信息。幾乎所有的互聯網行為都可以在電視上實現。

百度的語音識別技術就不用說了，更重要的是百度擁有的網絡資源。例如，用戶在電視上看到壹輛漂亮的汽車，想知道它的價格。壹般情況下，用戶會使用電腦或手機進行搜索，但與百度合作後，可以直接使用語音查詢，百度會給用戶滿意的結果。

百度語音的基礎服務架構

功能特征描述

支持Android和iOS平臺的SDK

Android支持2.2及以上版本，iOS支持5.0及以上版本。

場景深度的優化

支持適合搜索和指令場景的短文本識別和適合短信、微博等輸入的長文本識別模式。

對於領域優化，垂直應用的識別效果更好。

基於百度海量數據資源，為音樂、視頻、應用、網站搜索、地圖POI的識別提供優化。

特定場景的語義分析

支持提醒、電話、應用、日歷、通訊錄、航班、酒店、短信、音樂、手機設置、社交網絡、火車、旅行、天氣、網站、地圖、通用說明等19場景。

自動端點斷點檢測和數據傳輸，以優化流量消耗。

智能VAD檢測技術可以同時分析用戶語音的起點和終點並計算聲強，只傳輸有效數據，節省流量。

豐富可配置的UI組件

提供語音識別UI組件，自動音量反饋，支持亮藍色、暗橙色、亮紅色等八種主題，讓開發者以最低的成本進行集成。

提供底層API，更加靈活強大。提供底層的標識API，以更靈活、更強大的方式使用它。

通過開放原有的API接口，開發者可以在不幹擾當前交互流程的情況下，靈活構建語音識別使用場景。開放底層API接口，開發者可以靈活實現各種語音識別交互方式。彈出還是對話，由妳決定。

詳細的服務統計和API使用管理

服務控制臺支持詳細的服務統計查詢和服務使用頻率管理，方便開發者掌握服務使用情況和變化趨勢。

核心技術特征

用戶個性化聲音建模技術和海量數據的辨別訓練技術。

-GMM模式與歧視培訓LDA、MPE、SAT、FMLLR、FMPE等。

-數萬小時聲學模型訓練數據，覆蓋主要普通話說話人。

海量語言模型的高速訓練和自適應更新技術

-支持T級語料庫的統計語言模型的高速訓練和更新

-支持短信、微博、地圖、音樂、旅遊、視頻、APP等垂直領域的集成建模。

支持復雜漢語語義空間的單程解碼技術

-支持數百億語法的語言模型的壹次解碼

-支持包含語義信息的語法模型和通用統計語言模型的混合解碼。

-可以支持數百萬字典的復雜語義空間建模。

-具有統壹精度和速度的解碼算法

深層神經網絡聲學建模技術

-支持海量數據的深度神經網絡並行訓練

-支持個性化的深度神經網絡建模技術

深層語義理解

-集成自然語言處理技術，如依存分析、信息抽取、短文本分類和各種機器學習算法。

-多領域深度語義解析，領域無關信息抽取、專有名稱識別、語義規範化等淺層語義標註。

-基於海量網頁、搜索和社區數據挖掘，具有智能糾錯和推理技術。