2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號(hào):
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請(qǐng)將#換成@)
微軟,谷歌,英偉達(dá)等一系列硅谷的商業(yè)巨頭,對(duì)于合成數(shù)據(jù)領(lǐng)域相關(guān)的業(yè)務(wù)正在加速布局,合成數(shù)據(jù)也顯示出了多種的優(yōu)勢(shì)。合成數(shù)據(jù)是通過(guò)計(jì)算機(jī)技術(shù)人工所生成的,數(shù)據(jù)類(lèi)型并不由真實(shí)的事件將數(shù)據(jù)產(chǎn)生,但合成數(shù)據(jù)同樣也具有可用性的特點(diǎn),在數(shù)學(xué)和統(tǒng)計(jì)學(xué)領(lǐng)域,能夠?qū)⒃紨?shù)據(jù)屬性反映出來(lái)可以作為原始數(shù)據(jù)的一種代替品,對(duì)于A(yíng)I大模型進(jìn)行訓(xùn)練,并且驗(yàn)證大模型的準(zhǔn)確性。
大模型訓(xùn)練過(guò)程中除了要有龐大數(shù)據(jù)量,支撐數(shù)據(jù)本身的質(zhì)量也是極為重要的,ChatGPT在訓(xùn)練的時(shí)候一共使用數(shù)據(jù)達(dá)到45TB,有將近1萬(wàn)個(gè)單詞包含在內(nèi), ChatGPT等一系列大模型的訓(xùn)練,主要是從書(shū)籍、期刊、維基百科等眾多方面得來(lái)的,總體來(lái)看,數(shù)據(jù)方面是比較依賴(lài)互聯(lián)網(wǎng)現(xiàn)有的公開(kāi)數(shù)據(jù)。
在互聯(lián)網(wǎng)上文本參考的數(shù)量畢竟是有限的,GPT-3在數(shù)據(jù)參考方面已經(jīng)達(dá)到了千億級(jí)別,下一代的大模型在參考數(shù)量上達(dá)到萬(wàn)億級(jí)別以上之后,就會(huì)出現(xiàn)數(shù)據(jù)短缺這一問(wèn)題,讓訓(xùn)練出現(xiàn)瓶頸,在這種背景之下,合成數(shù)據(jù)的重要性就不斷的顯現(xiàn)出來(lái)。
合成數(shù)據(jù)擁有更低成本,更高效率和更高的質(zhì)量這三大特點(diǎn),這也是合成數(shù)據(jù)所具有的優(yōu)勢(shì),根據(jù)市場(chǎng)的調(diào)研機(jī)構(gòu)在預(yù)測(cè)中看到2024年人工智能數(shù)據(jù)分析中的數(shù)據(jù)其中大約60%都是從合成數(shù)據(jù)當(dāng)中得來(lái)的。
以自動(dòng)駕駛領(lǐng)域作為例子,在實(shí)際駕駛方面擁有著較為復(fù)雜的路況和很多的變量,極端天氣下會(huì)對(duì)路況信息獲得較為困難,通過(guò)合成數(shù)據(jù),就可以將各種場(chǎng)景進(jìn)行模擬的駕駛,既保證了安全,同時(shí)也讓駕駛能力提高。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號(hào):
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請(qǐng)將#換成@)