讓機器像人類壹樣學習？

如果要讓機器人擁有人的學習能力，應該怎麽做？伯克利 AI 研究院給出了壹個很好的答案——元強化學習（meta-RL）。但這壹次伯克利 AI 研究院不只是使用了元強化學習，還考慮POMDP、異步策略梯度等等知識體系，最終得到了壹個高樣本效率、高探索效率的新算法「PEARL」。這壹成果不僅為解決 AI 的實際問題提供新的思考角度；同時也是實現在現實系統中規模化應用元強化學習的的第壹步。伯克利 AI 研究院發布博文介紹了這壹成果，編譯如下。

背景

壹個智能體如果要在不斷變化的復雜環境中正常運行，那麽它獲得新技能的速度必須足夠快。就像人類在這壹方面表現出的非凡能力壹樣，比如：人類可以從某個示例中學習怎樣辨別出壹個全新的物體；在幾分鐘內適應不同汽車的不同駕駛方式；以及聽過某個俚語後，就能在自己的詞典中加上這個詞，等等。

因此，假設要使智能體來完成諸如人類這樣的學習能力，元學習則是壹種可以參考的方法。使用這壹範式，智能體可以通過充分利用在執行相關任務中積累的豐富經驗，以這些有限的數據為基礎去適應新的任務。針對這類既需要采取行動又需要積累過往經驗的智能體來說，元強化學習可以幫助其快速適應新的場景。但美中不足的是，雖然訓練後的策略可以幫助智能體快速適應新的任務，但元訓練過程需要用到來自壹系列訓練任務的大量數據，這就加劇了困惱強化學習算法的樣本效率低下問題。因此，現有的元強化學習算法在很大程度上只能在模擬環境中正常運行。在本文中，我們簡要介紹了元強化學習的研究現狀，然後提出了壹種新算法—— PEARL，該算法使得樣本效率得到數量級的大幅度提升。

前期回顧：元強化學習的研究進展

兩年前，伯克利博客發布了壹篇叫做《Learning to Learn》（文章查閱地址：https://bair.berkeley.edu/blog/2017/07/18/learning-to-learn/）的文章。這篇文章除了提出新的算法外，還對當時人們對元學習的興趣激增做了調查統計，結果表明無論是當時還是現在，元學習的關鍵思路就是把復雜的問題簡化成我們已經知道如何解決的問題。在傳統的機器學習中，研究者會給定壹組數據點用來匹配模型；而在元學習中，則用壹組數據集來替換這些數據點，其中每個數據集都對應壹個學習問題。只要學習這些問題的過程（所謂的「適應」）是可區分的，就可以像往常壹樣，在具有梯度下降的外循環（元訓練）中對其進行優化。壹旦經過訓練，適應程序就可以迅速從少量數據中解決新的相關任務。

最近的元強化學習進展（從左到右依次為：通過元學習對觀察到人類行為實現單樣本模仿https://arxiv.org/abs/1802.01557、以元強化學習模型為基礎的斷腿適應https://arxiv.org/abs/1803.11347、用演變的策略梯度來推斷超越訓練任務分布的情況https://arxiv.org/abs/1802.04821）

當時，大多數元學習工作都集中在小樣本圖像分類上。在此後的幾年裏，元學習應用到了更廣泛的問題上，如視覺導航、機器翻譯和語音識別等等。所以，將強化學習運用到元學習方法內是壹個具有挑戰性但又振奮人心的任務，因為這樣的結合將有望使智能體能夠更快速地學習新的任務，這個能力對於部署在復雜和不斷變化的世界中的智能體來說是至關重要的。

因為元學習本身的樣本復雜性問題和深度強化學習緊密相關，因此元學習可以通過與深度強化學習相結合來解決這個問題。兩年前壹些關於元學習的論文（RL2 https://arxiv.org/abs/1611.02779，Wang et al. https://arxiv.org/abs/1611.05763, 和 MAML https://arxiv.org/abs/1703.03400），介紹了在策略梯度（policygradient）和密集獎勵（denserewards）的有限環境中將元學習應用於強化學習的初步結果。此後，很多學者對這個方法產生了濃厚的興趣，也有更多論文展示了將元學習理念應用到更廣泛的環境中，比如：從人類演示中學習（https://arxiv.org/abs/1802.01557）、模仿學習（https://arxiv.org/abs/1810.03237）以及基於模型的強化學習（https://arxiv.org/abs/1803.11347）。除了元學習模型參數外，我們還考慮了超參數和損失函數。為了解決稀疏獎勵設置問題，於是有了壹種利用元學習來探索策略的方法。

盡管取得了這些進展，樣本效率仍然是壹項挑戰。當考慮將 meta-RL 應用於實際中更復雜的任務時，快速適應這些任務則需要更有效的探索策略，因此在實際學習任務中，需要考慮如何解決元訓練樣本效率低下的問題。因此，伯克利 AI 研究院基於這些問題進行了深入研究，並開發了壹種旨在解決這兩個問題的算法。

異步策略元強化學習的優勢

盡管策略梯度強化學習算法可以在復雜的高維控制任務（如控制擬人機器人的運行）上實現高性能，但它們的樣本效率仍然很低。比如，最先進的策略梯度法（PPO https://arxiv.org/abs/1707.06347）需要壹億個樣本來學習壹個良好的類人策略，如果我們在壹個真實的機器人上運行這個算法，並用壹個 20 赫茲控制器使其連續運行，在不計算重置時間的情況下，需要耗費近兩個月的時間來學習。其效率低下的主要原因是形成策略梯度更新的數據必須從現行策略中取樣，而不是在訓練期間重復使用以前收集的數據。最近的異步策略（off-policy ）算法（TD3 https://arxiv.org/abs/1802.09477，SAC https://arxiv.org/abs/1801.01290）與策略梯度算法的性能不相上下，然而需要的樣本數量卻減少了 100 倍。如果研究者能夠利用這種算法進行元強化學習，數周的數據收集時間可減少至半天，這就使元學習更高效。異步策略學習在從零開始進行訓練時，除了大大提高了樣本效率外，還有進壹步的功能優化——它不光可以利用以前收集的靜態數據集，還可以利用其他機器人在其他場景中的數據。

非策略強化學習（SAC）比策略梯度（PPO）更有效

探索問題

在監督元學習中，用於適應新任務的數據是給定的。例如，在小樣本圖像分類中，我們會為元學習智能體提供針對我們希望標註的新的類的圖像和標註。在強化學習中，智能體負責探索和收集自身的數據，因此適應程序必須包括有效的探索策略。“黑盒子”元學習智能體（RL2，and SNAIL https://arxiv.org/abs/1707.03141）可以學習這些探索策略，因為在遞歸優化中，整個適應過程被視為壹個長序列。類似地，基於梯度的元強化學習方法可以通過將信用分配給更新前策略收集到的軌跡和更新後策略獲得的回報來學習探索策略。雖然理論上是可行的，但實際上這些方法並沒有學習臨時延伸的探索策略。

為了解決這個問題，MAESN （https://arxiv.org/abs/1802.07245）以決定策略和通過梯度下降來適應新任務的概率性潛在變量的方式，增加了結構化的隨機性。該模型經過訓練，使先前的樣本對探索軌跡進行編碼，而來自適應變量的樣本則得到最優的適應軌跡。總的來講，所有這些方案都適用於同步策略（on-policy）強化學習算法，因為它們依賴於從同壹現行策略中取樣的探索和適應軌跡，因此需要同步策略采樣。為了構建同步策略元強化學習算法，我們將采用不同的方法來探索。

通過元學習後驗采樣法探索

在全新的場景中進行探索，壹個非常簡單的方法是假裝它是妳已經見過的東西。例如，如果妳第壹次看到火龍果並想去吃它，妳會將它類比成芒果而按照吃芒果的方式用刀來切開它。這是壹種很好的探索策略，它能夠讓妳吃到裏面美味的果肉。而當妳發現火龍果的果肉更像獼猴桃後，妳可能又會切換到吃獼猴桃的策略，使用勺子挖出果肉吃。

在強化學習的相關文獻中，這樣的探索方法叫做後驗采樣（或 Thompson sampling）。智能體在 MDPs 上有個數據集分布，然後從該分布中叠代采樣新的 MDP，並根據它來決定最佳的操作方式，同時使用收集到的數據來完成分布的更新。隨著收集的數據越來越多，後驗分布縮小，使探索和叠代之間實現穩定的過渡。這壹策略看似有限，因為它去掉了采取無目的探索性行為的可能性；然而此前的壹項工作“(More) Efficient Reinforcement Learning via Posterior Sampling”表明，通過後驗采樣確保最壞情況下累積的遺憾值（regret）接近於當前最佳的探索策略。

通過後驗采樣法吃壹個奇怪的新水果

在實際問題中，我們如何在 Mdps 上表示這種分布？壹種可能是保持過渡和獎勵功能的分布。為了根據采樣模型進行操作，我們可以使用任何基於模型的強化學習算法。Bootstrapped DQN 將這壹想法應用於無模型的深度強化學習中，並在 Q 函數上維持近似後驗。我們認為可以通過學習不同任務在Q 函數上的分布來將這壹想法擴展到多任務環境中，並且這種分布對於新的相關任務中的探索非常有效。

為了在元強化學習中引入後驗采樣法，我們先在 Mdps 上對基於 Q 函數的分布進行建模，通過實例化潛在變量 z，並根據經驗（或語境）來推斷出模型會將 Q 函數作為輸入來調整其預測。在元訓練過程中，學習 z 此前所有的變量來表示元訓練任務的分布。面對測試時的新任務，智能體從之前的假設中取樣，然後根據選出的這壹假設決定在環境中采取什麽樣的行動，之後再通過新的證明來對後驗分布進行更新。當智能體收集軌跡時，後驗分布縮小，同時該智能體也會生成對當前任務更好的預測。

將元強化學習視為 POMDP

運用在元強化學習上的貝葉斯後驗觀點，揭示了元強化學習與partially observed MDPs(部分可觀察的馬爾可夫決策過程)（POMDPs）之間的關系。當建模環境中當前觀察到的事情無法告知妳當前環境中的所有事情時（即只能部分觀察當前狀態），POMDPs 對於這種建模環境來說非常有用。就好比說，當妳在壹棟樓附近行走，燈光突然全部熄滅，此時妳無法從黑暗中立即觀察到妳在什麽位置，但妳仍然會對自己的位置有壹個預估，因為妳可以憑借記憶在燈光熄滅前所看到的場景來預估。而求解 POMDPs 就是相似的原理，它涉及到對觀測歷史信息的集成，從而達到準確地估計當前狀態的目標。

POMDP 的圖像模型

元強化學習則可以被看作是具有特殊結構的 POMDP，它的任務就是當前狀態中唯壹未觀察到的部分。在我們的示例中，任務可能就是找到壹個妳從未去過的辦公室。在標準的 POMDP 中，智能體每進行下壹步時都必須對狀態進行重新估計，這樣就能夠不斷地更新對建築物中位置的估計。而在元強化學習示例中，任務在各個探索軌跡上不會壹直變化，即在現實世界中，辦公室的位置不會在尋找過程中改變。這也表示該方法可以保持對辦公室位置的估計，而無需擔心潛在的系統動態在每個步驟中改變它的實際位置。將元強化學習算法轉換為 POMDPs 的說法，即智能體要維持任務的信念狀態（belief state ）——當在多個探索軌上收集信息時，任務會進行更新。

貝殼中的 PEARL

如何把任務上的信念狀態與現有的異步策略強化學習算法結合起來呢？首先，我們可以通過使用以上下文（經驗）為輸入的編碼器網絡 q(z|c) 推斷出後驗信念的變分近似。為了保持可操作性，我們將後驗部分表示為壹個高斯函數（Gaussian）。對於強化學習算法的智能體，我們選擇在 Soft Actor-Critic（SAC）的基礎上建模，因為它具有當前最佳的性能和樣本效率。信念狀態中的樣本傳遞給 actor、critic，以便他們能夠根據樣本任務進行預測。然後元訓練過程包括學習推導給定上下文的後驗 q(z|c)，並根據給定的 z 優化訓練 actor 和 critic。編碼器則是使用 critic 的梯度漸變優化（因此 q(z|c) 表示 Q 函數上的分布），以及信息瓶頸也是如此。出現這種瓶頸是派生出變分下界的結果，但這也可以直觀地將其解釋為上下文和 z 之間信息的最小化，這樣 z 就包含了預測狀態-動作值所需的最小化的信息。

關於這個方案需要註意的壹點是，為訓練 actor 和 critic 而取樣的壹批數據與上下文的壹批數據會分離。直觀而言，這是有用的：通過明確表示任務的信念狀態，智能體將任務推斷與控制分離，並且可以使用完全不同的數據源來學習每個任務。這與 MAML 和 RL2 等方法形成了鮮明對比，它們將任務推理和控制結合在壹起，因此必須同時使用壹批數據。

而事實也證明這種分離對於異步策略元訓練很重要。究其原因，我們可以想到，目前的元學習預測基於的假設是：訓練和測試階段應保持壹致。例如，在測試時進行新動物物種分類任務的元學習智能體，應該接受在包括動物在內的類分布上進行訓練。而強化學習中與此類似的是，如果在測試時智能體通過收集同步策略數據來進行調整，那麽它也應該使用策略上的數據進行訓練。因此，在訓練期間使用異步策略數據則會給分布帶來變化，從而破壞了這壹基本假設。在 PEARL 中，我們可以通過對同步策略數據進行上下文采樣，同時將異步策略數據用於 actor-critic 的訓練，來減小這壹分布的變化，並大規模使用異步策略數據。

彼時，該算法的壹部分仍然是抽象的編碼器體系結構。回顧下，這個編碼器的工作是在上下文中（由狀態、動作、獎勵和下壹個狀態組成的壹組轉換）進行，並在潛在的上下文變量上生成高斯後驗參數。雖然遞歸神經網絡在這裏看似是壹個明智的選擇，但我們註意到，Markov 的屬性意味著可以在不考慮它們在軌跡中順序的情況下對這些轉換進行編碼。基於這壹觀察，我們采用了壹個具有排列不變性、可以獨立地預測每個轉換的高斯因子的編碼器，並讓這些因子相乘構成後驗采樣。與 RNN 相比，該體系結構在優化方面更快、更穩定，並且可以適應更大規模的上下文。

準備充分後，PEARL 怎麽工作？

我們使用 MuJoCo 模擬器在六個基準連續控制域上對 PEARL 進行了測試，該模擬器在不同任務之間有不同的獎勵或動態功能。例如，對於 Ant 智能體，不同的任務對應著在 2D 平面上為不同目標位置導航；而對於 Walker 智能體來說，任務對應於其關節的不同參數和其他物理參數。

我們將 PEARL 與三種最先進的元強化學習算法進行了比較，即 ProMP、MAML 和 RL2。結果如下圖所示，其中藍色曲線代表 PEARL 的結果。需要註意的是，x 軸的單位（呈對數比例）。該方法通過在元訓練過程中利用異步策略數據，將樣本效率全面提高了 20-100 倍，並且它的最終表現往往也優於基線。

在稀疏的獎勵域，有效的探索尤其重要。試想壹個點機器人，它必須對半圓上的不同目標位置導航，並且只有定位到目標位置的小半徑範圍內（可在藍色區域觀察到）才會獲得獎勵。通過對目標位置的不同假設進行采樣並隨後更新其信念狀態，智能體可以進行有效地探索，直到找到目標位置。我們通過對 PEARL 與 MAESN 進行比較，MAESN 就是我們前面討論到的通過潛在變量生成的元學習探索策略，最終發現 PEARL 不僅在元訓練中具有更高的采樣效率，還能更有效地進行探索。

點機器人利用後驗采樣來探索和找到稀疏獎勵設置中的目標

未來發展方向

雖然元學習為智能體如何快速適應新的場景提供了壹個可能的解決方案，但它同時也產生了更多的問題！例如，元訓練任務從何而來？它們必須手動設計，還是可以自動生成的？雖然元學習從本質上來說是偶然的，但現實世界是壹個持續不斷的、永無止境的變化流程——智能體如何處理壹直隨時間變化的任務？設計獎勵函數非常困難——相反地，我們能否在元強化學習算法中同時利用二進制反饋、偏好和演示？我們認為 PEARL 中貝葉斯推理方面的研究能夠為解決其中壹些問題帶來壹個新的視角；同時我們也相信，PEARL 在學習異步策略上的能力是實現在現實系統中規模化應用元強化學習的的第壹步。