訂閱
糾錯
加入自媒體
發文

谷歌DADS算法助力智能體實現多樣化行為發現

2020-06-03 09:49
將門創投
關注

近年來強化學習的高速發展已經證明監督強化學習可以在真實世界中處理包括任意物體的抓取、靈巧的運動等復雜的任務。然而利用精心設計的獎勵函數來教會智能體進行復雜的行為卻面臨著顯著的局限性。一方面在設計損失函數上需要大量的工程性工作,對于大量任務來說幾乎是不可能的。另一方面針對真實環境設計獎勵,其復雜性不僅來自于獎勵函數本身,同時還需要一系列的環境基礎設施(額外的傳感器)或手工標注的目標狀態來進行輔助。這種獎勵函數工程方式顯示了智能體學習復雜行為的過程,而無監督學習的出現為這一問題提供了潛在的解決思路。

在監督強化學習中,來自環境的外部獎勵將引導智能體學習期待的行為,強化對環境進行期待的行為改造。而在非監督強化學習中,整體則利用內在的獎勵函數(例如嘗試環境中不同事物的好奇心)來生成訓練信號,從而可以獲得更為廣泛的任務無關的技能行為。內部獎勵函數可以繞過外部獎勵函數特有的工程問題,在無需額外設計的情況下適用于更廣泛更通用的任務上去。雖然已經有很多研究人員聚焦于實現非監督強化學習的不同手段,但這是一個嚴重欠約束的問題,沒有環境獎勵函數的引導是很難學習到有用的行為的。那么主體和環境間交互的有效特性是否可以幫助發現更好的行為(技能)呢?

這篇文章中將介紹關于非監督強化學習的最新研究。在DADS(Dynamics-Aware Unsupervised Discovery of Skills)方法中為非監督學習引入了可預測的優化目標,將技能的基礎特性視為可以對環境帶來可預測的改變,基于這一觀點開發出了非監督強化學習技能發現算法,并在模擬實驗中展示了其廣泛適應性。隨后研究人員還改進了樣本效率,展示了非監督技能發現對于真實世界的可行性。

左圖表示隨機不可預測的行為,右圖描述了在可預測環境中的系統性運動。本研究的目標在于學習像右圖一樣潛在的有用行為而無需獎勵函數工程。

DADS概覽

DADS設計了一個內部獎勵函數來鼓勵主體發現可預測、多樣性的技能。在以下兩種情況下內部獎勵函數值很高:

(a).不同技能對于環境的改變不同(鼓勵多樣性);

(b).給定技能在環境的造成的改變是可預測的(可預測性)。由于DADS無法從環境中獲取任何獎勵,技能優化的多樣性可以使得智能體抓住盡可能多的潛在有效行為。

為了判斷技能是否具有可預測性,文章中又訓練技能動力學網絡,在給定當前狀態和執行技能后來預測環境狀態的改變。技能動力學網絡對于環境狀態的預測越好,對于技能就越是可預測的。DADS定義的內部獎勵可以利用任何傳統的強化學習算法來最大化。

DADS的概覽圖

這套算法使得多個不同的主體可以通過與環境純粹的無獎勵交互來發現可預測的技能。DADS與先前的算法不同,可以拓展到高維度的連續控制環境中,例如人形機器人、模擬雙足機器人等。由于DADS可適應多種環境,可用于在方向性的環境中定位、操控和運動。下圖展示了一些實驗中的例子。

旋轉跳躍、人形仿真的不同步態、旋轉目標的不同方法。

1  2  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續

暫無評論

暫無評論

文章糾錯
x
*文字標題:
*糾錯內容:
聯系郵箱:
*驗 證 碼:

粵公網安備 44030502002758號

电竞投注竞彩app