2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。
幾個真實世界的任務都有稀疏的獎勵,這對強化學習(RL)算法的發(fā)展提出了挑戰(zhàn)。該問題的解決方案是允許代理人自主地為自己創(chuàng)造獎勵,使得獎勵更加密集并且更適合于學習。
例如,受到動物探索環(huán)境的奇怪行為的啟發(fā),RL算法對新事物的觀察可以獎勵獎勵。這個獎勵總結了真實的任務獎勵,然后允許RL算法從綜合獎勵中學習。
DeepMind,谷歌大腦和蘇黎世聯(lián)邦理工學院的研究人員最近設計了一種新的好奇心方法,使用情景記憶來形成這種新奇的獎勵。通過比較存儲在存儲器中的當前觀察和觀察來確定該獎勵。
“我們工作的主要目的是調(diào)查新的基于記憶的強化學習(RL)代理人的”好奇心“,即使在完全沒有獎勵的情況下我們也意味著探索環(huán)境,”Tim Lillicrap at Google Brain的DeepMind和Nikolay Savinov在一封電子郵件中告訴TechXplore。“研究界已經(jīng)以各種方式對好奇心進行了探討,但我們覺得有些想法可以從進一步的探索中受益。”
最近這篇論文探討的關鍵思想是基于Savinov先前進行的一項研究,該研究提出了一種受哺乳動物導航啟發(fā)的新記憶體系結構。此體系結構允許代理僅使用可視演練重復通過環(huán)境的路由。研究人員開發(fā)的新方法更進一步,試圖通過好奇心實現(xiàn)良好的探索。
“在表演時,代理人將觀察表征的實例存儲在其情景記憶中,”Lillicrap和Savinov說。“為了確定當前的觀察是否新穎,將其與記憶中的觀察結果進行比較。如果沒有發(fā)現(xiàn)任何相似之處,則當前的觀察被認為是新穎的并且代理人會得到獎勵,否則會得到負面的獎勵。這會鼓勵代理人探索陌生的領域,類似于好奇。“
研究人員發(fā)現(xiàn),比較成對的觀察結果可能很棘手,因為在現(xiàn)實環(huán)境中檢查精確匹配最終是毫無意義的。這是因為在現(xiàn)實世界中,代理人很少會兩次觀察同一件事。
“相反,我們訓練了一個神經(jīng)網(wǎng)絡來預測代理人是否可以通過采取比固定閾值更少的動作來從記憶中的那些人那里獲得當前的觀察結果;比如,五個動作,”Lillicrap和Savinov解釋說。“這五項行動中的觀察結果被認為是相似的,而需要采取更多行動才能進行過渡的觀察結果被視為不同。”
Lillicrap,Savinov和他們的同事在VizDoom和DMLab中測試了他們的方法,這兩個視覺豐富的3D環(huán)境。在VizDoom中,代理人學會了成功導航到遠處的目標,至少比最先進的好奇心方法ICM快兩倍。在DMLab中,該算法很好地推廣到新的,程序上生成的游戲級別,在具有非常稀疏獎勵的測試迷宮上比ICM至少兩倍地達到其期望目標。
基于驚喜的方法(ICM)持久地用類似激光的科幻小說標記墻壁而不是探索迷宮。這種行為類似于前面描述的通道切換:即使標記的結果在理論上是可預測的,但這并不容易,并且顯然需要深入了解物理學知識,這對于一般代理來說并不是直接的。圖片來源:Savinov等。
Lillicrap和Savinov說:“我們注意到一種最受歡迎??的方法有一個有趣的缺點,可以讓代理人充滿好奇心。” “我們發(fā)現(xiàn)這種方法,基于由緩慢變化的模型計算的驚喜,該模型試圖預測接下來會發(fā)生什么,可以導致代理的即時滿足響應:而不是解決手頭的任務,它將利用導致不可預測后果的行動,以獲得即時獎勵。“
這種奇特的事件,也被稱為“沙發(fā) - 土豆”問題,需要代理人找到通過利用導致不可預測后果的行動立即滿足自己的方法。例如,當給定電視遙控器時,代理可能除了改變頻道之外什么都不做,即使其原始任務完全不同,例如在迷宮中搜索目標。
“這種缺點可以通過情景記憶和合理的觀察相似度來緩解,這是我們的貢獻,”Lillicrap和Savinov說。“這為更智能的探索開辟了道路。”
由Lillicrap,Savinov和他們的同事設計的新好奇心方法可以幫助復制RL算法中的好奇心技能,使他們能夠自主地為自己創(chuàng)造獎勵。在未來,研究人員希望使用情景記憶不僅可以用于獎勵,還可以用于計劃行動。
“例如,可以使用從內(nèi)存中檢索到的內(nèi)容來考慮下一步的去向嗎?” 莉莉拉普和薩維諾夫說。“這是一項重大的科學挑戰(zhàn):如果解決了問題,代理商將能夠迅速將探索策略適應新環(huán)境,從而使學習速度更快。”
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網(wǎng) 版權歸原作者所有。