Facebook研究人員已經(jīng)開發(fā)了一個通用的AI框架

2020-07-31 08:42:42 編輯：來源：國際品牌資訊

導(dǎo)讀 Facebook研究人員已經(jīng)開發(fā)了一個通用的AI框架，稱為遞歸基于信念的學(xué)習(xí)(ReBeL)，他們說單挑，無限制的德州撲克游戲在單挑，無限制德州撲克

Facebook研究人員已經(jīng)開發(fā)了一個通用的AI框架，稱為遞歸基于信念的學(xué)習(xí)(ReBeL)，他們說單挑，無限制的德州撲克游戲在單挑，無限制德州撲克中的表現(xiàn)要好于人類，同時使用的領(lǐng)域知識也比以前任何撲克AI都要少。他們斷言，ReBeL是朝著開發(fā)用于多主體交互的通用技術(shù)邁出的一步，換句話說，就是可以在大規(guī)模多主體設(shè)置中部署的通用算法。從拍賣，談判和網(wǎng)絡(luò)安全到自動駕駛汽車和卡車，潛在的應(yīng)用范圍廣泛。

將強化學(xué)習(xí)與AI模型訓(xùn)練和測試時間的搜索相結(jié)合，帶來了許多進步。強化學(xué)習(xí)是代理商通過最大化獎勵來學(xué)習(xí)實現(xiàn)目標(biāo)的過程，而搜索是從開始到目標(biāo)狀態(tài)的導(dǎo)航過程。例如，DeepMind的AlphaZero運用強化學(xué)習(xí)和搜索功能，在棋類，將棋和圍棋等棋盤游戲中獲得最先進的表現(xiàn)。但是，將組合方法應(yīng)用于諸如撲克(或剪刀石頭布)之類的信息不完善的游戲時，性能會受到影響，因為它會做出許多在這些情況下不成立的假設(shè)。任何給定動作的價值取決于其被選擇的可能性，并且更普遍地取決于整個游戲策略。

Facebook研究人員建議ReBeL提供修復(fù)程序。ReBeL建立在工作的基礎(chǔ)上，其中“博弈狀態(tài)”的概念得到了擴展，以包括代理商根據(jù)常識和其他代理商的政策對他們可能處于何種狀態(tài)的信念。ReBeL通過自我強化學(xué)習(xí)為州訓(xùn)練了兩個AI模型-一個價值網(wǎng)絡(luò)和一個政策網(wǎng)絡(luò)。它在自播放期間使用兩種模型進行搜索。結(jié)果是一種簡單，靈活的算法，研究人員聲稱該算法能夠在大規(guī)模的兩人不完全信息游戲中擊敗頂尖的人類玩家。

在較高的級別上，ReBeL在公眾信仰狀態(tài)而非世界狀態(tài)(即游戲狀態(tài))上運行。公眾信仰國家(PBS)將“國家價值”的概念推廣到不完全信息的游戲中，例如撲克。PBS是在有限的可能動作和狀態(tài)序列(也稱為歷史記錄)上的常見知識概率分布。(概率分布是一種特殊的函數(shù)，可提供發(fā)生不同可能結(jié)果的可能性。)在完美信息游戲中，PBS可以提取到歷史記錄，而在兩人零和游戲中，PBS可以有效地提取到世界狀態(tài)。撲克中的PBS是玩家可以做出的一系列決定，以及特定手牌，底池和籌碼時他們的結(jié)果。

ReBeL在每個游戲開始時都會生成一個與原始游戲相同的“子游戲”，只是它起源于最初的PBS。該算法通過運行“均衡查找”算法的迭代并使用訓(xùn)練后的值網(wǎng)絡(luò)在每次迭代中近似值來贏得勝利。通過強化學(xué)習(xí)，發(fā)現(xiàn)值并將其添加為價值網(wǎng)絡(luò)的訓(xùn)練示例，并且子游戲中的策略可選地添加為策略網(wǎng)絡(luò)的示例。然后重復(fù)該過程，使PBS成為新的子游戲根，直到準確性達到某個閾值。

在實驗中，研究人員對ReBeL進行了單挑德州撲克無限

標(biāo)簽： Facebook