您的位置: 首頁 >科技 >

DeepMind思想家在益智游戲和宇宙飛船導航游戲上測試架構(gòu)

2019-06-27 11:20:58 編輯: 來源:
導讀 想象和計劃的代表:這是本月早些時候六個DeepMind團隊成員的DeepMind討論的標題。他們在兩個論文上完成了DeepMind研究工作的方向,現(xiàn)在正在

想象和計劃的代表:這是本月早些時候六個DeepMind團隊成員的DeepMind討論的標題。

他們在兩個論文上完成了DeepMind研究工作的方向,現(xiàn)在正在arXiv上。

他們說,在你采取行動之前想象你行為的后果是人類認知的有力工具。(我們每天都這樣做。就像那個筆在你桌面的邊緣搖搖晃晃。你可以“想象”它落下,所以你把它移到一個更安全的位置。)

“如果我們的算法要發(fā)展同樣復雜的行為,他們也必須具備'想象'和推理未來的能力。”

正如Thomas Claburn在The Register中指出的那樣,DeepMind“已經(jīng)發(fā)現(xiàn),用想象力灌輸其軟件代理可以幫助他們更好地學習。”

什么樣的想象。

如果你研究報道這項研究的新聞網(wǎng)站,你會發(fā)現(xiàn)他們會仔細地說出它是什么以及它不是什么,而是使用諸如想象力 - “喜歡”和想象力 - “基于”這樣的短語。

他們從根本上研究了改進深層強化學習的新技術(shù)。

克拉本用非常清晰的語言翻譯了他們正在做的事情:

“強化學習是機器學習的一種形式。它涉及一種軟件代理,通過與特定環(huán)境的交互來學習,通常是通過反復試驗。深度學習是一種機器形式,涉及受人類大腦啟發(fā)的算法,稱為神經(jīng)網(wǎng)絡(luò)。這兩種技術(shù)可以一起使用。“ 他說,DeepMind的工作試圖提供兩全其美的優(yōu)勢。

代理人從像素表示中播放Sokoban,而不知道游戲規(guī)則。在特定的時間點,我們想象代理人對五種可能未來的想象。根據(jù)該信息,代理商決定采取什么行動。突出顯示相應的軌跡。閱讀DeepMind博客:想象和計劃的代理商

在現(xiàn)實世界中,復雜性規(guī)則。說到規(guī)則,在現(xiàn)實生活中,它們并沒有如此清晰地定義。事情發(fā)生你無法輕易預測。至于規(guī)劃策略,我們非常清楚,一個通用的答案并不總是適用于真實的環(huán)境。

代理商如何處理復雜問題?團隊成員有兩篇論文涉及這一切。他們描述了一系列基于想象力的計劃方法。引入了體系結(jié)構(gòu),以便代理商學習和構(gòu)建計劃以最大化任務效率的新方法。

關(guān)于這些代理人的一個更有趣的特征描述是“他們可以學習不同的策略來構(gòu)建計劃。他們通過在繼續(xù)當前的想象軌跡或從頭開始重新選擇之間做出選擇。”

他們還可以使用不同的想象模型,“具有不同的精度和計算成本。”

研究人員測試了任務的架構(gòu),包括益智游戲推箱子和宇宙飛船導航游戲。

推箱子視頻說明:一名經(jīng)紀人從像素表示中扮演推箱子,不知道游戲規(guī)則。

宇宙飛船任務的注意事項:DeepMind的帖子帶有一個“代理人玩太空飛船任務的視覺效果。紅線表示在環(huán)境中執(zhí)行的軌跡,而藍色和綠色表示想象的軌跡。”

結(jié)果?

“對于這兩項任務,想象力增強的特工大大優(yōu)于無想象力的基線:他們以較少的經(jīng)驗學習,能夠應對環(huán)境建模的不完美之處。”

正如TNW的亞歷杭德羅·陶伯所說,“這些論文中描述的想象力類型遠不及人類所能達到的那種,但它確實表明,人工智能可以并且能夠在行動之前有效地想象不同的場景。”

關(guān)于論文:“想象力增強的深層強化學習代理”本月在arXiv上提交。

他們表示,這些代理人通過“學習解釋”他們的不完美預測來使用近似環(huán)境模型,并且他們的算法可以直接在低級別的觀察上進行訓練,只需很少的領(lǐng)域知識。

“在不對環(huán)境模型的結(jié)構(gòu)及其可能的不完善性做出任何假設(shè)的情況下,我們的方法以端到端的方式學習,從模型模擬中提取有用的知識 - 特別是不依賴于模擬的回報。”

另一篇論文是“從零開始學習基于模型的規(guī)劃”,本月也提交了arXiv。“我們表明,我們的架構(gòu)可以學習解決具有挑戰(zhàn)性的連續(xù)控制問題,并在離散的迷宮解決任務中學習精心策劃的策略。”


免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。