1簡介。ChatGPT聊天機器人
ChatGPT是由OpenAI開發的人工智能聊天機器人程序,於2022年6月在165438+10月推出。該程序使用基於GPT 3.5架構的大型語言模型,並通過強化學習進行訓練。
ChatGPT目前仍與單詞進行交互,但除了人類自然對話外,它還可用於相對復雜的語言工作,包括自動文本生成、自動問答、自動摘要等。
例如,在自動文本生成中,ChatGPT可以自動生成相似的文本(腳本、歌曲、計劃等。),而在自動問答中,ChatGPT可以根據輸入的問題自動生成答案。它還具有編寫和調試計算機程序的能力。
在推廣期間,每個人都可以免費註冊,並在登錄後使用ChatGPT免費與AI機器人對話。
ChatGPT可以寫出類似於真實人水平的文章,並迅速獲得關註,因為它在許多知識領域給出了詳細的答案和清晰的答案,這證明它也可以勝任以前認為不會被AI取代的知識型工作,它對金融和白領勞動力市場產生了相當大的影響,但其參差不齊的事實準確性被認為是壹個主要缺陷。
它基於思想模型訓練的結果,被認為需要仔細糾正。2022年6月ChatGPT發布後,OpenAI的估值已升至290億美元【7】。上線兩個月後,用戶數達到654.38+0億。
2.ChatGPT如何訓練數據?
ChatGPT使用基於人類反饋的監督學習和強化學習來微調GPT-3.5。這兩種方法都使用人類訓練器來提高模型的性能,並通過人工幹預來增強機器學習的效果,從而獲得更真實的結果。
在監督學習的情況下,模型提供了對話,其中訓練員J扮演用戶和AI助手的角色。在強化步驟中,人類培訓師首先對模型在之前的對話中產生的反應進行評分。
這些級別用於創建壹個“獎勵模型”,並使用鄰近策略優化-PPO的多次叠代對其進行進壹步微調。
該策略優化算法比信賴域策略優化算法更有效。這些模型是與微軟合作在其Microsoft Azure超級計算基礎架構上訓練的。
此外,OpenAI繼續收集ChatGPT用戶的數據,這些數據可用於進壹步訓練和微調ChatGPT。允許用戶投票支持或反對他們從ChatGPT收到的回復;當投票贊成或反對時,他們還可以在文本字段中填寫額外的反饋。
ChatGPT的訓練數據包括各種文檔和各種有關互聯網和編程語言的知識,如BBS和Python編程語言。
至於ChatGPT編寫和調試計算機程序能力的訓練,深度學習模型與所有其他基於深度學習的語言模型壹樣,只是獲得代碼片段之間的統計相關性。