2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。
Facebook研究人員已經開發(fā)了一個通用的AI框架,稱為遞歸基于信念的學習(ReBeL),他們說單挑,無限制的德州撲克游戲在單挑,無限制德州撲克中的表現要好于人類,同時使用的領域知識也比以前任何撲克AI都要少。他們斷言,ReBeL是朝著開發(fā)用于多主體交互的通用技術邁出的一步,換句話說,就是可以在大規(guī)模多主體設置中部署的通用算法。從拍賣,談判和網絡安全到自動駕駛汽車和卡車,潛在的應用范圍廣泛。
將強化學習與AI模型訓練和測試時間的搜索相結合,帶來了許多進步。強化學習是代理商通過最大化獎勵來學習實現目標的過程,而搜索是從開始到目標狀態(tài)的導航過程。例如,DeepMind的AlphaZero運用強化學習和搜索功能,在棋類,將棋和圍棋等棋盤游戲中獲得最先進的表現。但是,將組合方法應用于諸如撲克(或剪刀石頭布)之類的信息不完善的游戲時,性能會受到影響,因為它會做出許多在這些情況下不成立的假設。任何給定動作的價值取決于其被選擇的可能性,并且更普遍地取決于整個游戲策略。
Facebook研究人員建議ReBeL提供修復程序。ReBeL建立在工作的基礎上,其中“博弈狀態(tài)”的概念得到了擴展,以包括代理商根據常識和其他代理商的政策對他們可能處于何種狀態(tài)的信念。ReBeL通過自我強化學習為州訓練了兩個AI模型-一個價值網絡和一個政策網絡。它在自播放期間使用兩種模型進行搜索。結果是一種簡單,靈活的算法,研究人員聲稱該算法能夠在大規(guī)模的兩人不完全信息游戲中擊敗頂尖的人類玩家。
在較高的級別上,ReBeL在公眾信仰狀態(tài)而非世界狀態(tài)(即游戲狀態(tài))上運行。公眾信仰國家(PBS)將“國家價值”的概念推廣到不完全信息的游戲中,例如撲克。PBS是在有限的可能動作和狀態(tài)序列(也稱為歷史記錄)上的常見知識概率分布。(概率分布是一種特殊的函數,可提供發(fā)生不同可能結果的可能性。)在完美信息游戲中,PBS可以提取到歷史記錄,而在兩人零和游戲中,PBS可以有效地提取到世界狀態(tài)。撲克中的PBS是玩家可以做出的一系列決定,以及特定手牌,底池和籌碼時他們的結果。
ReBeL在每個游戲開始時都會生成一個與原始游戲相同的“子游戲”,只是它起源于最初的PBS。該算法通過運行“均衡查找”算法的迭代并使用訓練后的值網絡在每次迭代中近似值來贏得勝利。通過強化學習,發(fā)現值并將其添加為價值網絡的訓練示例,并且子游戲中的策略可選地添加為策略網絡的示例。然后重復該過程,使PBS成為新的子游戲根,直到準確性達到某個閾值。
在實驗中,研究人員對ReBeL進行了單挑德州撲克無限
2016-2022 All Rights Reserved.平安財經網.復制必究 聯系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯網 版權歸原作者所有。