您的位置: 首頁 >互聯(lián)網(wǎng) >

Google的第四代張量處理單元公開發(fā)布

2020-07-31 08:44:35 編輯: 來源:國際品牌資訊

模型時(shí),第四代TPU的得分也很高。使用256個(gè)第四代TPU進(jìn)行培訓(xùn)需要1.82分鐘,僅比使用4,096個(gè)第三代TPU進(jìn)行培訓(xùn)所需的0.39分鐘稍慢。同時(shí),使用Nvidia硬件達(dá)到0.81分鐘的培訓(xùn)時(shí)間,需要2,048張A100卡和512個(gè)AMD Epyc 7742 CPU內(nèi)核。

最新的MLPerf包括新的和經(jīng)過修改的基準(zhǔn)(建議和強(qiáng)化學(xué)習(xí)),并且TPU的結(jié)果參差不齊。由64個(gè)第四代TPU組成的集群在“建議”任務(wù)中表現(xiàn)良好,花費(fèi)了1.12分鐘的時(shí)間來訓(xùn)練來自Criteo AI Lab的Terabyte點(diǎn)擊率(CTR)數(shù)據(jù)集的1TB日志的模型。(八個(gè)Nvidia A100卡和兩個(gè)AMD Epyc 7742 CPU內(nèi)核在3.33分鐘內(nèi)完成了訓(xùn)練。)但是Nvidia在強(qiáng)化學(xué)習(xí)方面取得了領(lǐng)先,設(shè)法在29.7分鐘的簡化版棋盤游戲中將模型訓(xùn)練為50%的獲勝率。帶有256個(gè)A100卡和64個(gè)AMD Epyc 7742 CPU內(nèi)核。256個(gè)第四代TPU花費(fèi)了150.95分鐘。

需要注意的一點(diǎn)是,Nvidia硬件以Facebook的PyTorch框架和Nvidia自己的框架(而不是Google TensorFlow)為基準(zhǔn)。第三代和第四代TPU都使用TensorFlow,JAX和Lingvo。盡管這可能會(huì)在一定程度上影響結(jié)果,甚至允許這樣做,但基準(zhǔn)測(cè)試明確了第四代TPU的性能優(yōu)勢(shì)。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。