只有行業差異化,才能提高垂直行業的語料積累和NLP算法模型準確率。我嗎?科學家在現有的1.0NLP系統中測試,子場景下的意圖判斷準確率相比泛行業可以提高5%-7%。用算法能力輸出最終意圖,而不是之前的規則匹配,可以讓意圖判斷更接近真實的轉化效果?水果?。同時通過垂直領域的語料庫和意義庫的積累和調用,以及語音的智能推送?推薦?可以大大提高AIT語音投放的響應速度,更好地應對618、雙十壹等促銷節點下客戶的爆發式需求。
在NLP2.0系統的加持下,可以實現壹些高難度的對話場景。曾經,對於問卷調查、客戶滿意度調查等外呼,提取時間、地址、機構名稱等關鍵信息和實體信息的要求非常高,窮盡使用簡單的關鍵詞是無法滿足要求的。有了NLP的實體識別功能和關鍵信息提取功能,復雜對話場景的數據分析變得可行;增加了情感識別和情境感知功能,同壹個用戶回復?機器人有了更多的語言表達選擇,真正做到了千人千面;在知識圖譜算法的支持下,實現復雜重復性問題的投入大大降低,機器人在面對客戶的各種問題時變得更加從容。
此次發布的NLP2.0系統,核心亮點,易智智能在杭州人工智能計算中心和盛騰生態軟硬件進行了優化。* *聯合浙大易智人工智能聯合研究中心,提出了泛消費領域的專用大規模預訓練語言模型“EAZI”。在互聯網基礎上覆蓋消費領域的幾百個G級信息?優質的頁面、論壇、微博、新聞等形式?數量?語料庫訓練,結合易智智能積累的上億條消費場景對話數據,可以同時支持多種語義理解算法,包括意圖識別、問答識別、實體識別、情感識別、知識圖譜和對話內容生成等多項NLP常見任務。“EAZI”模型基於Transformer架構,基於語言學知識和領域數據增強技術自主開發。手術?從模型架構的表示層和交互層,到預訓練策略,都進行了全方位的改進。具體來說:
1,細粒度的詞法表示,基於詞義信息的註意機制,約束了句法,提高了模型對語言學知識的建模能力。
2.結合消費場景積累的大量實體信息,引入話語屏蔽機制,增強了模型對特定場景識別的表示能力。隨著垂直領域數據的增強,識別算法對領域中的常用表達、語言成分和文本關系更加敏感。
3.為了滿足業界對高並發、低延遲、低資源消耗的需求,EAZI采用大模型提煉、小模型初始化的策略,最終實現了僅十億參數的輕量級預訓練模型。相對於擁有數千億參數的大模型,在消費領域特有的識別場景下是有效的。水果?突破了傳統巨無霸模式的效率限制。
4.在實際訓練過程中,易智智能與華為杭州計算中心合作。在不斷上升的生態下,計算能力達到40 PFLOPS FP16,相當於2萬臺高性能PC的計算能力,顯著提升了計算能力的快速響應能力。