您的位置: 首頁 >科技 >

AI可以通過玩星際爭霸和我的世界來學(xué)習(xí)真實(shí)世界的技能

2022-09-09 21:35:21 編輯:蒲美全 來源:
導(dǎo)讀 虛擬游戲世界是探索,響應(yīng)和適應(yīng)的良好測試平臺(tái),AI AT PLAY玩視頻游戲的算法可以掌握各種技能。DarioWünsch感到自信。來自德國萊比...

虛擬游戲世界是探索,響應(yīng)和適應(yīng)的良好測試平臺(tái),AI AT PLAY玩視頻游戲的算法可以掌握各種技能。

DarioWünsch感到自信。來自德國萊比錫的這位28歲的年輕人即將成為第一個(gè)在快速視頻游戲“星際爭霸II”中接受人工智能程序AlphaStar的專業(yè)游戲玩家。Wünsch一直專業(yè)玩“星際爭霸II”,競爭對(duì)手命令外國艦隊(duì)爭奪領(lǐng)土近十年。他不可能失去這個(gè)五場比賽的挑戰(zhàn)給一個(gè)新創(chuàng)造的AI游戲玩家。

甚至AlphaStar在總部位于倫敦的人工智能研究公司DeepMind的創(chuàng)始人也是如此,該公司是Alphabet公司的一部分,對(duì)結(jié)果并不樂觀。他們是一大批研究人員中的最新成員,他們?cè)噲D建立一個(gè)可以處理星際爭霸II令人眼花繚亂的復(fù)雜性的人工智能。到目前為止,還沒有人創(chuàng)造出能夠擊敗經(jīng)驗(yàn)豐富的人類玩家的系統(tǒng)。

果然,當(dāng)AlphaStar在12月12日對(duì)陣Wünsch時(shí),人工智能似乎在第一場比賽開始時(shí)犯了一個(gè)致命錯(cuò)誤:它忽略了在營地入口處建立一個(gè)保護(hù)屏障,讓W(xué)ünsch滲透并迅速挑選關(guān)閉了幾個(gè)工人單位。有一分鐘,看起來星際爭霸II仍然是人類戰(zhàn)勝機(jī)器的領(lǐng)域。但AlphaStar取得了勝利的回歸,組建了一個(gè)頑強(qiáng)的隊(duì)伍,很快就浪費(fèi)了Wünsch的防守。AlphaStar 1,Wünsch0。

Wünsch搖了搖頭。他只需要更多地關(guān)注防守。但是在第二輪比賽中,AlphaStar通過扣留攻擊讓這位職業(yè)選手感到驚訝,直到它積累了一支再次粉碎Wünsch部隊(duì)的。之后的三場比賽,AlphaStar以5比0的比分贏得了比賽,將Wünsch降級(jí)為由機(jī)器擊敗的小型但不斷增長的世界級(jí)游戲玩家俱樂部。

研究人員長期以來一直將游戲作為AI智能的基準(zhǔn)。1997年,IBM的Deep Blue贏得了國際象棋冠軍加里卡斯帕羅夫(SN:8/2/97,第76頁)的國際贊譽(yù)。2016年,DeepMind的AlphaGo以擊敗Go冠軍Lee Sedol而著稱(SN:12/24/16,第28頁)。

但是像國際象棋和圍棋這樣的基于棋盤的比賽到目前為止只能推動(dòng)人工智能。這些游戲仍然非常簡單 - 玩家可以輪流看到每個(gè)棋子在棋盤上的位置。在制作能夠處理真實(shí)世界歧義和快節(jié)奏互動(dòng)的人工智能時(shí),最有用的機(jī)器認(rèn)知測試可能會(huì)出現(xiàn)在虛擬世界中的游戲中。

建立可以打敗人類玩家的AI游戲玩家不僅僅是一個(gè)虛榮項(xiàng)目。哥本哈根IT大學(xué)的AI研究員Sebastian Risi說:“最終的想法是......將這些算法用于實(shí)際挑戰(zhàn)。”例如,在總部位于舊金山的公司OpenAI訓(xùn)練了一個(gè)五人工作小組參加一個(gè)名為Dota 2的在線戰(zhàn)斗游戲之后,程序員重新利用這些算法教導(dǎo)機(jī)器人手的五個(gè)手指以前所未有的靈巧操縱物體。研究人員在1月份在arXiv.org網(wǎng)上描述了這項(xiàng)工作。

使用最初開發(fā)的算法來幫助五個(gè)AI玩游戲Dota 2,OpenAI研究人員構(gòu)建了一個(gè)非常靈巧的機(jī)器人手。

DeepMind的研究人員同樣希望AlphaStar的設(shè)計(jì)能夠讓研究人員嘗試構(gòu)建AI來處理長時(shí)間的相互作用,例如那些涉及模擬氣候變化或理解對(duì)話的人,這是一項(xiàng)特別困難的任務(wù)(SN:3/2/19,第8頁)。

目前,AI仍在努力解決的兩個(gè)重要問題是:相互協(xié)調(diào),不斷將新知識(shí)應(yīng)用于新情況。事實(shí)證明,星際爭霸的世界是一種優(yōu)秀的測試平臺(tái),可以讓人工智能更加合作。為了試驗(yàn)使AI永遠(yuǎn)成為學(xué)習(xí)者的方法,研究人員正在使用另一種流行的視頻游戲Minecraft。雖然人們可能會(huì)利用屏幕時(shí)間作為對(duì)現(xiàn)實(shí)生活的分心,但虛擬挑戰(zhàn)可能有助于AI掌握在現(xiàn)實(shí)世界中取得成功所需的技能。

街機(jī)教育

AI可以在視頻游戲中練習(xí)不同的技能,以學(xué)習(xí)如何在現(xiàn)實(shí)世界中相處。例如,導(dǎo)航技術(shù)可以幫助搜索和救援機(jī)器人徘徊崎嶇的地形,知道如何管理許多工人的AI可以幫助管理公司。

教授AI為現(xiàn)實(shí)世界提供有用技能的游戲類型:

類型賽跑第一人稱射擊開放世界實(shí)時(shí)戰(zhàn)略示例游戲Forza Motororsport,Real Racing厄運(yùn)我的世界,俠盜獵車手星際爭霸導(dǎo)航XXX管理資源/員工XX情節(jié)策略XXX快速反應(yīng)XXX合作XX設(shè)定目標(biāo)X創(chuàng)造力X勘探XX終身學(xué)習(xí)X動(dòng)機(jī)XX雜耍優(yōu)先事項(xiàng)XX

團(tuán)隊(duì)合作

當(dāng)AlphaStar接手Wünsch時(shí),AI就像人類一樣玩星際爭霸II:它像一個(gè)木偶操縱者一樣完全控制著艦隊(duì)中的所有角色。但在舊金山的Facebook AI Research的人工智能研究員Jakob Foerster表示,有許多現(xiàn)實(shí)世界的情況依賴于一個(gè)主腦AI來微觀管理大量設(shè)備會(huì)變得難以處理。

想想監(jiān)督整個(gè)醫(yī)院照顧病人的數(shù)十個(gè)護(hù)理機(jī)器人,或者自駕卡車協(xié)調(diào)他們?cè)跀?shù)英里的高速公路上的速度,以緩解交通瓶頸。因此,包括Foerster在內(nèi)的研究人員正在使用星際爭霸游戲嘗試不同的“多代理”方案。

在某些設(shè)計(jì)中,個(gè)別作戰(zhàn)單位具有一定的獨(dú)立性,但仍然受到集中控制器的支持。在這個(gè)設(shè)置中,監(jiān)督AI就像一個(gè)教練在場邊喊叫。教練制定了一個(gè)重要的計(jì)劃并向團(tuán)隊(duì)成員發(fā)出指示。各個(gè)單位使用該指導(dǎo)以及對(duì)周圍環(huán)境的詳細(xì)觀察來決定如何采取行動(dòng)。北京大學(xué)計(jì)算機(jī)科學(xué)家王益洲及其同事在提交給IEEE神經(jīng)網(wǎng)絡(luò)和學(xué)習(xí)系統(tǒng)的論文中報(bào)告了這種設(shè)計(jì)的有效性。

Wang的團(tuán)隊(duì)使用強(qiáng)化學(xué)習(xí)訓(xùn)練其人工智能團(tuán)隊(duì),這是一種機(jī)器學(xué)習(xí),其中計(jì)算機(jī)系統(tǒng)通過與環(huán)境互動(dòng)獲得技能,并在做正確的事情后獲得虛擬獎(jiǎng)勵(lì)。每個(gè)隊(duì)友都根據(jù)其附近被淘汰的敵人數(shù)量獲得獎(jiǎng)勵(lì),以及整個(gè)團(tuán)隊(duì)是否勝過由游戲內(nèi)置的自動(dòng)對(duì)手控制的艦隊(duì)。在由至少10個(gè)戰(zhàn)斗單位組成的團(tuán)隊(duì)的幾個(gè)不同挑戰(zhàn)中,教練指導(dǎo)的AI團(tuán)隊(duì)贏得了60%到82%的時(shí)間。沒有獨(dú)立推理能力的控制的AI團(tuán)隊(duì)對(duì)內(nèi)置對(duì)手的成功率較低。

當(dāng)團(tuán)隊(duì)可以依賴所有代理人之間快速,準(zhǔn)確的溝通時(shí),具有單個(gè)指揮官的AI工作人員對(duì)個(gè)別單位施加至少一些控制可能效果最佳。例如,該系統(tǒng)可以用于同一倉庫內(nèi)的機(jī)器人。

在星際爭霸II的視頻游戲中,專業(yè)的星際爭霸II玩家DarioWünsch扮演“LiquidTLO”,被人工智能AlphaStar所壓倒,這對(duì)Wünsch的基地造成了嚴(yán)重破壞。當(dāng)AI顯示其優(yōu)勢時(shí),人工智能在DeepMind的創(chuàng)作者歡呼。當(dāng)AlphaStar擊敗他時(shí),Wünsch大步邁進(jìn),5場比賽為0。

但是,對(duì)于許多機(jī)器,例如自動(dòng)駕駛汽車或無人機(jī)群體,它們分布在很遠(yuǎn)的距離,單獨(dú)的設(shè)備“將無法與單個(gè)控制器保持一致,可靠和快速的數(shù)據(jù)連接,”Foerster說。這是每個(gè)AI本身。在這些限制下工作的AI通常無法與集中式團(tuán)隊(duì)協(xié)調(diào),但Foerster及其同事設(shè)計(jì)了一個(gè)培訓(xùn)計(jì)劃,以使獨(dú)立思考的機(jī)器能夠協(xié)同工作。

在該系統(tǒng)中,集中觀察者在強(qiáng)化學(xué)習(xí)期間向隊(duì)友提供反饋。但是,一旦該小組接受了全面培訓(xùn),AI就會(huì)獨(dú)立完成。主要代理人不像是邊線教練,更像是在排練期間提供芭蕾舞女演員指導(dǎo)的舞蹈教練,但在舞臺(tái)表演期間保持沉默。

AI監(jiān)督員通過在培訓(xùn)期間提供個(gè)性化建議,為個(gè)人AI提供自給自足的準(zhǔn)備。在每次試運(yùn)行之后,監(jiān)督員模擬替代可能的未來,并告訴每個(gè)代理人,“這就是實(shí)際發(fā)生的事情,如果其他人都做了同樣的事情就會(huì)發(fā)生這種情況,但你做了不同的事情。”這種方法,福斯特的團(tuán)隊(duì)于2018年2月在新奧爾良舉行的AAAI人工智能會(huì)議上,幫助每個(gè)AI單位判斷哪些行動(dòng)有助于或阻礙該團(tuán)隊(duì)的成功。

為了測試這個(gè)框架,F(xiàn)oerster及其同事在星際爭霸中訓(xùn)練了三組五個(gè)AI單元。受過訓(xùn)練的單位必須僅根據(jù)對(duì)周圍環(huán)境的觀察來行動(dòng)。在由內(nèi)置的非人類對(duì)手指揮的相同球隊(duì)的戰(zhàn)斗回合中,所有三個(gè)AI組贏得了他們的大部分回合,在相同的戰(zhàn)斗場景中表現(xiàn)出三個(gè)控制的AI團(tuán)隊(duì)。

終身學(xué)習(xí)

程序員在星際爭霸和星際爭霸II中測試的AI培訓(xùn)類型旨在幫助AI團(tuán)隊(duì)掌握單一任務(wù),例如協(xié)調(diào)交通信號(hào)燈或無人機(jī)。星際爭霸游戲非常適合這種情況,因?yàn)閷?duì)于所有移動(dòng)部件而言,游戲相當(dāng)簡單:每個(gè)玩家都有一個(gè)壓倒對(duì)手的單一目標(biāo)。但是,如果人工智能變得更加多樣化和人性化,程序需要能夠?qū)W習(xí)更多知識(shí)并不斷學(xué)習(xí)新技能。

“我們現(xiàn)在看到的所有玩Go和國際象棋的系統(tǒng) - 他們基本上都訓(xùn)練過很好地完成這一項(xiàng)任務(wù),然后他們被修復(fù)以便他們無法改變,”Risi說。Risi說,一個(gè)帶有18×18網(wǎng)格的Go-playing系統(tǒng),而不是標(biāo)準(zhǔn)的19×19游戲板,可能必須在新的主板上完全重新訓(xùn)練。改變星際爭霸單位的特征需要進(jìn)行相同的背對(duì)一訓(xùn)練。類似樂高的Minecraft領(lǐng)域是一個(gè)更好的測試方法,使AI更具適應(yīng)性。

在由3D墻塊組成的不同環(huán)境中,Minecraft玩家可以構(gòu)建結(jié)構(gòu)并探索周圍環(huán)境(上面的示例)。CHRISTOPH SALGE等人/PROC。第13屆國際比賽。CONF。關(guān)于2018年數(shù)字游戲的基礎(chǔ)

與“星際爭霸”不同,“我的世界”不會(huì)讓玩家完成任務(wù)。在這個(gè)由三維灰塵,玻璃和其他材料組成的虛擬世界中,玩家可以收集資源來建造結(jié)構(gòu),旅行,尋找食物,并做其他任何他們喜歡的事情??偛课挥谂f金山的軟件公司Salesforce的人工智能研究員Caiming Xiong和同事們?cè)贛inecraft中使用了一個(gè)簡單的建筑物來測試人工智能,以便不斷學(xué)習(xí)。

熊的團(tuán)隊(duì)并沒有指定人工智能通過強(qiáng)化學(xué)習(xí)中的反復(fù)試驗(yàn)來學(xué)習(xí)單一任務(wù),而是讓人工智能的教育錯(cuò)綜復(fù)雜。研究人員指導(dǎo)人工智能通過越來越困難的強(qiáng)化學(xué)習(xí)挑戰(zhàn),從尋找特定區(qū)塊到堆疊區(qū)塊。人工智能旨在將每個(gè)挑戰(zhàn)分解為更簡單的步驟。它可以使用舊的專業(yè)知識(shí)解決每一步或嘗試新的東西。與另一個(gè)沒有使用先前知識(shí)來傳達(dá)新學(xué)習(xí)經(jīng)驗(yàn)的人工智能相比,熊團(tuán)隊(duì)的人工智能證明是一個(gè)更快的研究。

積累知識(shí)的人工智能在適應(yīng)新情況方面也更好。熊和同事告訴兩個(gè)AI如何拾取塊。在一個(gè)只包含一個(gè)街區(qū)的簡單房間內(nèi)進(jìn)行培訓(xùn)時(shí),兩個(gè)AI都獲得了“收集項(xiàng)目”技能。但是在一個(gè)有多個(gè)街區(qū)的房間里,離散任務(wù)AI很難確定其目標(biāo)并且只有29%的時(shí)間抓住了正確的區(qū)塊。

快速吸收

一個(gè)知道如何應(yīng)用過去的知識(shí)來學(xué)習(xí)新技能(深綠色)的Minecraft玩AI可以更快地學(xué)習(xí)如何成功地執(zhí)行新技能。與不依賴于舊專業(yè)知識(shí)(淺綠色)的人工智能相比,它在嘗試中獲得的獎(jiǎng)勵(lì)高達(dá)1.0。

人工智能學(xué)習(xí)有和沒有過去的知識(shí)

資料來源:T。Shu,C。Xiong和R. Socher / 6th Internat。CONF。關(guān)于學(xué)習(xí)代表2018年

知識(shí)積累的AI知道依賴于先前學(xué)習(xí)的“查找項(xiàng)目”技能來在分心中定位目標(biāo)對(duì)象。它在94%的時(shí)間內(nèi)獲得了正確的阻止。該研究于2018年5月在溫哥華舉行的國際學(xué)習(xí)代表大會(huì)上發(fā)表。

通過進(jìn)一步的培訓(xùn),熊和同事的系統(tǒng)可以掌握更多的技能。但是這種設(shè)計(jì)受到以下事實(shí)的限制:AI只能學(xué)習(xí)人類程序員在訓(xùn)練期間分配的任務(wù)。人類沒有這種教育截止。當(dāng)人們完成學(xué)業(yè)時(shí),“不喜歡,”現(xiàn)在你已經(jīng)完成了學(xué)習(xí)。你可以凍結(jié)你的大腦然后去,“Risi說。

加州大學(xué)圣地亞哥分校的機(jī)器人專家Priyam Parashar說,一個(gè)更好的人工智能將在游戲和模擬中獲得基礎(chǔ)教育,然后能夠在其整個(gè)生命周期中繼續(xù)學(xué)習(xí)。例如,如果居民安裝嬰兒門或重新安排家具,家用機(jī)器人應(yīng)該能夠找到導(dǎo)航工作區(qū)。

Parashar及其同事創(chuàng)建了一個(gè)AI,可以識(shí)別需要進(jìn)一步培訓(xùn)而無需人工輸入的實(shí)例。當(dāng)人工智能遇到新的障礙時(shí),它會(huì)評(píng)估環(huán)境與預(yù)期的不同。然后它可以在心理上排練各種解決方案,想象每個(gè)解決方案的結(jié)果并選擇最佳解決方案。

研究人員在一個(gè)兩室的Minecraft建筑中用AI測試了這個(gè)系統(tǒng)。人工智能已經(jīng)接受過培訓(xùn),可以從第二個(gè)房間找回金塊。但是另一個(gè)Minecraft玩家在房間之間的門口建造了一個(gè)玻璃屏障,阻止AI收集金塊。人工智能評(píng)估了這種情況,并通過強(qiáng)化學(xué)習(xí),找出了如何粉碎玻璃以完成其任務(wù),Parashar和她的同事在2018年知識(shí)工程評(píng)論中報(bào)道。

Parashar承認(rèn),面對(duì)意想不到的嬰兒門或玻璃墻的人工智能應(yīng)該可能不會(huì)得出最好的解決辦法。但她說,程序員可以為AI的心理模擬添加額外的約束 - 比如不應(yīng)該破壞有價(jià)值或擁有的對(duì)象的知識(shí) - 來告知系統(tǒng)的學(xué)習(xí)。

研究人員使用Minecraft來教授人工智能技能,例如如何設(shè)定目標(biāo)和建立創(chuàng)造性結(jié)構(gòu)。LAIGE PENG和YOSHIMASA TSURUOKA /信息處理學(xué)會(huì)2018

新的視頻游戲一直在成為AI測試床。人工智能和紐約大學(xué)的游戲研究員Julian Togelius及其同事希望在Overcooked中測試合作的AIs - 這是一個(gè)團(tuán)隊(duì)烹飪游戲,發(fā)生在一個(gè)緊湊,擁擠的廚房里,玩家不斷地互相攻擊。“游戲旨在挑戰(zhàn)人類的思想,”Togelius說。任何視頻游戲本質(zhì)上都是一個(gè)現(xiàn)成的測試,可以測試AI知識(shí)如何模仿人類的聰明才智。

但是當(dāng)談到在視頻游戲或其他模擬世界中測試AI時(shí),“你永遠(yuǎn)不能說,'好吧,我已經(jīng)模擬了現(xiàn)實(shí)世界中發(fā)生的一切,'”Parashar說。彌合虛擬和物理現(xiàn)實(shí)之間的差距將需要更多的研究。

她建議,保持模擬訓(xùn)練的人工智能免于過度使用的一種方法是設(shè)計(jì)需要AI在需要時(shí)向人們尋求幫助的系統(tǒng)(SN:3/2/19,第8頁)。“從某種意義上說,這使得[AI]更像人類,對(duì)嗎?”Parashar說。“我們?cè)谂笥训膸椭马樌^來。”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。