您的位置: 首頁 >科技 >

DeepMind研究人員開發(fā)神經(jīng)算術(shù)邏輯單元

2019-06-12 17:00:27 編輯: 來源:
導(dǎo)讀 在許多物種中可以觀察到表示和操縱數(shù)量的能力,包括昆蟲,哺乳動物和人類。這表明基本的定量推理是智力的重要組成部分,具有幾個進(jìn)化優(yōu)勢。

在許多物種中可以觀察到表示和操縱數(shù)量的能力,包括昆蟲,哺乳動物和人類。這表明基本的定量推理是智力的重要組成部分,具有幾個進(jìn)化優(yōu)勢。

此功能在機(jī)器中非常有價(jià)值,可以更快,更有效地完成涉及數(shù)字操作的任務(wù)。然而,到目前為止,經(jīng)過訓(xùn)練來表示和操縱數(shù)字信息的神經(jīng)網(wǎng)絡(luò)很少能夠在訓(xùn)練過程中遇到的值范圍之外得到很好的推廣。

Google DeepMind的一組研究人員最近開發(fā)了一種新的架構(gòu)來解決這一局限,在神經(jīng)網(wǎng)絡(luò)訓(xùn)練的數(shù)值范圍內(nèi)外實(shí)現(xiàn)更好的泛化。他們的研究預(yù)先發(fā)布在arXiv上,可以為開發(fā)更先進(jìn)的機(jī)器學(xué)習(xí)工具提供信息,以完成定量推理任務(wù)。

“當(dāng)標(biāo)準(zhǔn)的神經(jīng)架構(gòu)被訓(xùn)練成數(shù)字時(shí),它們往往難以計(jì)入更高的數(shù)量,”該項(xiàng)目首席研究員Andrew Trask告訴Tech Xplore。“我們探索了這個局限,并發(fā)現(xiàn)它也擴(kuò)展到其他算術(shù)函數(shù),導(dǎo)致我們的假設(shè),即神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)類似于他們?nèi)绾螌W(xué)習(xí)單詞的數(shù)字,作為一個有限的詞匯。這可以防止他們正確地推斷需要以前看不見的函數(shù)(更高)我們的目標(biāo)是提出一種可以進(jìn)行更好推斷的新架構(gòu)。“

研究人員設(shè)計(jì)了一種架構(gòu),通過將數(shù)值表示為使用原始算術(shù)運(yùn)算符(由學(xué)習(xí)門控制)操縱的線性激活,鼓勵更系統(tǒng)的數(shù)字推斷。他們稱這個新模塊為神經(jīng)算術(shù)邏輯單元(NALU),其靈感來自傳統(tǒng)處理器中的算術(shù)邏輯單元。

“數(shù)字通常使用單熱或分布式表示在神經(jīng)網(wǎng)絡(luò)中編碼,而數(shù)字上的函數(shù)是在一系列具有非線性激活的層中學(xué)習(xí)的,”特拉斯克解釋說。“我們建議數(shù)字應(yīng)該存儲為標(biāo)量,在每個神經(jīng)元中存儲一個數(shù)字。例如,如果你想存儲數(shù)字42,你應(yīng)該只有一個包含'42'的激活的神經(jīng)元,而不是一系列0-1神經(jīng)元編碼它。“

研究人員還改變了神經(jīng)網(wǎng)絡(luò)在這些數(shù)字上學(xué)習(xí)函數(shù)的方式。他們沒有使用可以學(xué)習(xí)任何功能的標(biāo)準(zhǔn)體系結(jié)構(gòu),而是設(shè)計(jì)了一種體系結(jié)構(gòu),該體系結(jié)構(gòu)向前傳播預(yù)定義的一組函數(shù),這些函數(shù)被視為可能有用(例如,加法,乘法或除法),使用神經(jīng)架構(gòu)來學(xué)習(xí)這些注意機(jī)制。功能。

“這些關(guān)注機(jī)制隨后決定何時(shí)何地應(yīng)用每種可能有用的功能而不是學(xué)習(xí)該功能本身,”特拉斯克說。“這是創(chuàng)建具有理想的數(shù)學(xué)函數(shù)學(xué)習(xí)偏差的深度神經(jīng)網(wǎng)絡(luò)的一般原則。”

他們的測試表明,NALU增強(qiáng)神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)執(zhí)行各種任務(wù),例如時(shí)間跟蹤,對數(shù)字圖像執(zhí)行算術(shù)功能,將數(shù)字語言翻譯成實(shí)值標(biāo)量,執(zhí)行計(jì)算機(jī)代碼和計(jì)算圖像中的對象。

與傳統(tǒng)架構(gòu)相比,它們的模塊在訓(xùn)練期間呈現(xiàn)的數(shù)值范圍內(nèi)外都獲得了明顯更好的泛化。雖然NALU可能不是每項(xiàng)任務(wù)的理想解決方案,但他們的研究提供了一種通用設(shè)計(jì)策略,用于創(chuàng)建在特定功能類別上表現(xiàn)良好的模型。

“一個概念深層神經(jīng)網(wǎng)絡(luò)應(yīng)該從一組預(yù)定義的功能選擇和學(xué)會理事在使用它們的注意力機(jī)制是一個非??蓴U(kuò)展的想法,”特拉斯克解釋。“在這項(xiàng)工作中,我們探索了簡單的算術(shù)函數(shù)(加法,減法,乘法和除法),但是我們對將來在更強(qiáng)大的函數(shù)上學(xué)習(xí)注意機(jī)制的潛力感到興奮,也許會帶來我們觀察到的相同的外推結(jié)果。各種各樣的領(lǐng)域。“


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。