2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
今天的人工智能系統(tǒng)可能看起來像是能夠在各種任務中擊敗人類同行的智力強者。然而,事實上,當今最先進的AI代理商的智力能力是狹隘和有限的。以AlphaGo為例。雖然它可能是棋盤游戲Go的世界冠軍,但這基本上是系統(tǒng)擅長的唯一任務。
當然,還有AlphaZero。該算法掌握了許多不同的游戲,從和國際象棋到Go。因此,它比許多當代AI代理商更有能力和動態(tài);但是,AlphaZero無法輕松將其智能應用于任何問題。它不能像人類一樣從一個任務移動到另一個任務。
所有其他當前的人工智能系統(tǒng)都可以說同樣的事情 - 他們的認知能力是有限的,并沒有超出他們創(chuàng)建的具體任務。這就是為什么人工智能(AGI)是許多研究人員的長期目標的原因。
AGI系統(tǒng)被廣泛認為是人工智能研究的“圣杯”,是具有廣泛解決問題能力的人工智能代理,使他們能夠應對在設(shè)計階段未考慮的挑戰(zhàn)。與專注于一項特定技能的傳統(tǒng)AI系統(tǒng)不同,AGI系統(tǒng)能夠有效地解決他們遇到的任何問題,完成各種任務。
如果技術(shù)得以實現(xiàn),它將以無數(shù)種方式使人類受益。斯坦福大學(Stanford University)經(jīng)濟學家馬歇爾•伯克(Marshall Burke)預測,AGI系統(tǒng)最終將能夠建立大規(guī)模的協(xié)調(diào)機制,以幫助緩解(甚至消除)我們最緊迫的一些問題,如饑餓和貧困。然而,在社會能夠從這些AGI系統(tǒng)中獲益之前,DeepMind的AGI安全研究員Ramana Kumar指出,AI設(shè)計師最終需要解決自我改善問題。
自我改善符合AGI
在當前的AI系統(tǒng)中已經(jīng)存在早期的自我改進形式。“在正常的機器學習過程中會發(fā)生一種自我改善,”庫馬爾解釋說。“即,該系統(tǒng)在其培訓過程中能夠很好地執(zhí)行任務或一系列任務。”
然而,Kumar斷言他會將這種形式的機器學習與真正的自我改進區(qū)分開來,因為系統(tǒng)無法從根本上改變自己的設(shè)計,成為新的東西。為了實現(xiàn)顯著改進 - 包含新技能,工具或創(chuàng)建更高級AI代理的改進 - 當前的AI系統(tǒng)需要人為他們提供新代碼和新的訓練算法等。
然而,理論上可以創(chuàng)建一個能夠真正自我改進的AI系統(tǒng),Kumar說這種自我改進的機器是AGI更合理的途徑之一。
研究人員認為,自我改進的機器最終可能導致AGI,因為這個過程被稱為“遞歸自我改進”。基本思想是,隨著人工智能系統(tǒng)繼續(xù)使用遞歸自我改進使自己變得更聰明,它會越來越好地使自己變得更聰明。這將迅速導致其智力的指數(shù)增長,并因此最終可能導致AGI。
庫馬爾說,這種情況完全合理,并解釋說,“為了實現(xiàn)這一目標,我們需要一些幾乎沒有爭議的假設(shè):理論上存在這種高度稱職的代理人,并且可以通過一系列局部改進找到它們。”在這種程度上,遞歸自我提升是一個概念,它是我們?nèi)绾螐慕裉斓闹械戎悄軝C器到超智能AGI的一些理論的核心。然而,庫馬爾澄清說,這不是AI超級智能的唯一潛在途徑。
人類可以通過各種方法發(fā)現(xiàn)如何建立高度勝任的AGI系統(tǒng)。這可能是“通過擴展現(xiàn)有的機器學習方法,例如,使用更快的硬件?;蛘呖梢酝ㄟ^在表征學習,轉(zhuǎn)移學習,基于模型的強化學習或其他方向上進行漸進的研究進展來實現(xiàn)。例如,我們可能在腦部掃描和仿真方面取得足夠的進展,以復制和加速特定人類的智能,“Kumar解釋道。
然而,他也很快澄清遞歸自我改善是AGI的先天特征。“即使重復自我提高是沒有必要制定游刃有余的人工坐席放在首位,明確自我完善將仍然有可能對那些代理商,”庫馬爾說。
因此,雖然研究人員可能會發(fā)現(xiàn)AGI的途徑不涉及遞歸的自我改善,但它仍然是需要認真研究的人工智能的屬性。
自我改善AI的安全性
當系統(tǒng)開始自我修改時,我們必須能夠相信所有修改都是安全的。這意味著我們需要了解所有可能的修改。但是,如果沒有人能夠提前預測修改是什么,我們怎樣才能確保修改是安全的?
庫馬爾指出,這個問題有兩個明顯的解決方案。第一種選擇是限制系統(tǒng)生產(chǎn)其他AI代理的能力。然而,正如庫馬爾簡潔地總結(jié)的那樣,“我們不想通過禁止自我改善來解決安全的自我改善問題!”
因此,第二種選擇是僅允許被認為足夠安全的有限形式的自我改進,例如軟件更新或處理器和內(nèi)存升級。然而,庫馬爾解釋說,審查這些形式的自我改善是安全和不安全的仍然非常復雜。事實上,他說,防止一種特定類型的修改的構(gòu)建是如此復雜,以至于“需要深入了解自我改進所涉及的內(nèi)容,這可能足以解決完全安全的自我改善問題”。
值得注意的是,即使新的進步只允許有限形式的自我改善,庫馬爾也表示這不是一條可以采取的道路,因為它回避了我們想要解決的自我改善的核心問題。“我們希望建立一個可以建立另一個AI代理的代理,其代理能力如此之大,以至于我們無法提前直接推斷其安全性......我們希望委托一些關(guān)于安全的理由,并且能夠相信父母這種推理是否正確,“他斷言。
最終,這是一個極其復雜的問題,仍處于最新生階段。因此,目前的大部分工作都集中在測試各種技術(shù)解決方案,并看到可以取得進展的地方。“對于這些問題,仍然存在很多概念上的混淆,因此一些最有用的工作涉及在各種環(huán)境中嘗試不同的概念,并觀察結(jié)果是否連貫,”Kumar解釋說。
無論最終解決方案是什么,Kumar斷言成功克服自我改善的問題取決于AI研究人員密切合作。“[測試這個問題的解決方案]的關(guān)鍵是明確假設(shè),并且為了向其他人解釋,明確與我們最終關(guān)心的現(xiàn)實世界安全AI問題的聯(lián)系。”
在涉及人工智能時,經(jīng)常會出現(xiàn)關(guān)于什么構(gòu)成“安全”和“不安全”行為的爭論。作為拉瑪納庫馬爾,在AGI安全研究員DeepMind,筆記,術(shù)語是主觀的,“只能相對于AI系統(tǒng)的使用者和受益者的值來定義。”
幸運的是,在面對與創(chuàng)建安全AI代理相關(guān)的技術(shù)問題時,這些問題大多可以回避,因為這些問題與識別正確或道德適當?shù)膯栴}無關(guān)。相反,從技術(shù)角度來看,術(shù)語“安全”最好定義為一種AI代理,它始終采取導致預期結(jié)果的行動,而不管這些預期結(jié)果如何。
在這方面,Kumar解釋說,在創(chuàng)建一個負責改進自身的AI代理時,“構(gòu)建安全代理的技術(shù)問題在很大程度上獨立于'安全'意味著什么,因為問題的很大一部分是如何建立一個能夠可靠地做某事的代理人,無論那是什么東西,以這種方式繼續(xù)工作,即使所考慮的代理人越來越有能力。“
簡而言之,制作一個“安全”的AI代理商不應該與制定“道德”AI代理商混為一談。各自的條款都在討論不同的事情。
一般而言,回避道德的安全定義使得AI技術(shù)工作變得更加容易它允許研究在道德問題的辯論演變的同時推進。例如,優(yōu)步的自動駕駛汽車已經(jīng)上街,盡管我們尚未就是否應該保護駕駛員或行人的框架達成一致。
然而,當涉及到創(chuàng)建一個能夠自我改進的強大而安全的AI系統(tǒng)時,技術(shù)工作變得更加困難,并且該領(lǐng)域的研究仍處于最新生階段。這主要是因為我們不只處理一個AI代理;我們正在處理幾代未來的自我改善代理人。
庫馬爾澄清說,“當一個AI代理人自我提升時,可以將情況視為涉及兩個代理人:'種子'或'父母'代理人和父母自我修改的'子代理人'......及其總數(shù)對世界的影響將包括其后代所采取的行動的影響。“因此,為了知道我們已經(jīng)建立了一個安全的AI代理人,我們需要了解可能來自第一個代理人的所有可能的子代理人。
并且驗證所有未來AI代理商的安全性歸結(jié)為解決稱為“自我引用推理”的問題。
理解自我指涉問題
通過根據(jù)其兩個主要組成部分定義術(shù)語,最容易理解自引用推理的問題:自引用和推理。
自我引用:指某人(或某些東西,如計算機程序或書籍)引用自身的實例。任何提到自己的人或事物都被稱為“自我指涉”。
推理:在人工智能系統(tǒng)中,推理是一個過程,通過這個過程,代理人建立關(guān)于世界的“信念”,例如特定行為是否安全或特定推理系統(tǒng)是否合理。“良好的信念”是基于現(xiàn)有證據(jù)的合理或可信的信念。使用術(shù)語“信念”而不是“知識”,因為代理人認為的事物可能不是事實真實的并且可能隨著時間而改變。
因此,與AI相關(guān),術(shù)語“自引用推理”指的是使用推理過程來建立關(guān)于同一推理過程的信念的代理。因此,當涉及到自我改進時,“自引用問題”如下:代理人正在使用自己的推理系統(tǒng)來確定其推理系統(tǒng)的未來版本是否安全。
為了以另一種方式解釋問題,Kumar指出,如果AI代理人創(chuàng)建了一個兒童代理來幫助它實現(xiàn)目標,那么在使用它之前,它會想要建立一些關(guān)于孩子安全的信念。這必然涉及通過辯論孩子的推理過程是好的來證明對孩子的信念。然而,孩子的推理過程可能與原始代理人的推理過程相似甚至延伸。最終,AI系統(tǒng)無法使用自己的推理來確定其推理是否良好。
從技術(shù)角度來看,問題歸結(jié)為Godel的第二個不完備性定理,Kumar解釋說,“這表明沒有足夠強大的證明系統(tǒng)可以證明其自身的一致性,因此代理人很難證明他們的繼承者已被證明是安全的行為是事實上,安全。“
調(diào)查解決方案
迄今為止,已經(jīng)提出了針對該問題的若干部分解決方案;但是,我們目前的軟件沒有足夠的自我參照推理支持,使解決方案易于實施和研究。因此,為了提高我們對實施自我推理推理的挑戰(zhàn)的理解,Kumar和他的團隊旨在使用已經(jīng)提出的一些部分解決方案來實現(xiàn)AI代理的玩具模型。
具體而言,他們研究了在具體環(huán)境(特別是Botworld)中實施自我參考問題的一種特定方法的可行性,其中可以檢查所有細節(jié)。選擇的方法是模型多態(tài)性。模型多態(tài)性不需要證明操作對所有未來用例都是安全的,而是僅需要對從證明系統(tǒng)中抽象出來的任意數(shù)量的步驟(或后續(xù)操作)證明是安全的。
Kumar指出,總體目標最終是“了解理論與工作實現(xiàn)之間的差距,并加深對模型多態(tài)性方法的理解。”這可以通過在HOL中創(chuàng)建一個證明定理來實現(xiàn)(更高階描述情況的邏輯)定理證明者。
為了簡化這一點,實質(zhì)上,定理證明是計算機程序,它們有助于數(shù)學正確性證明的發(fā)展。這些數(shù)學正確性證明是該領(lǐng)域中最高的安全標準,表明計算機系統(tǒng)總是為任何給定的輸入產(chǎn)生正確的輸出(或響應)。定理證明通過使用形式化的數(shù)學方法來證明或反駁系統(tǒng)底層控制算法的“正確性”,從而創(chuàng)建了這樣的證明。特別是HOL定理證明是一系列交互式定理證明系統(tǒng),有助于高階邏輯理論的構(gòu)建。高階邏輯支持對函數(shù),集合,集合等的量化,比其他邏輯更具表現(xiàn)力,允許用戶以高抽象級別編寫正式語句。
回想起來,庫馬爾說,試圖在HOL定理證明器中證明關(guān)于自我反思的多個步驟的定理是一項艱巨的任務。盡管如此,他斷言,在解決自我指涉問題時,團隊向前邁進了幾步,并指出他們建立了“許多必要的基礎(chǔ)設(shè)施,并更好地了解了如何證明它以及它需要什么。將基于模型多態(tài)性構(gòu)建原型代理。“
Kumar補充說,MIRI(機器智能研究所)的邏輯電感器也可以提供令人滿意的正式自引用推理版本,從而為自引用問題提供解決方案。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。