AI大模型無米下鍋合成數(shù)據(jù)優(yōu)勢(shì)凸顯硅谷巨頭加速布局

2023-05-21 17:18:32 編輯：江卿辰來源：

導(dǎo)讀微軟，谷歌，英偉達(dá)等一系列硅谷的商業(yè)巨頭，對(duì)于合成數(shù)據(jù)領(lǐng)域相關(guān)的業(yè)務(wù)正在加速布局，合成數(shù)據(jù)也顯示出了多種的優(yōu)勢(shì)。合成數(shù)據(jù)是通過計(jì)算...

微軟，谷歌，英偉達(dá)等一系列硅谷的商業(yè)巨頭，對(duì)于合成數(shù)據(jù)領(lǐng)域相關(guān)的業(yè)務(wù)正在加速布局，合成數(shù)據(jù)也顯示出了多種的優(yōu)勢(shì)。合成數(shù)據(jù)是通過計(jì)算機(jī)技術(shù)人工所生成的，數(shù)據(jù)類型并不由真實(shí)的事件將數(shù)據(jù)產(chǎn)生，但合成數(shù)據(jù)同樣也具有可用性的特點(diǎn)，在數(shù)學(xué)和統(tǒng)計(jì)學(xué)領(lǐng)域，能夠?qū)⒃紨?shù)據(jù)屬性反映出來可以作為原始數(shù)據(jù)的一種代替品，對(duì)于AI大模型進(jìn)行訓(xùn)練，并且驗(yàn)證大模型的準(zhǔn)確性。

大模型訓(xùn)練過程中除了要有龐大數(shù)據(jù)量，支撐數(shù)據(jù)本身的質(zhì)量也是極為重要的，ChatGPT在訓(xùn)練的時(shí)候一共使用數(shù)據(jù)達(dá)到45TB，有將近1萬個(gè)單詞包含在內(nèi)， ChatGPT等一系列大模型的訓(xùn)練，主要是從書籍、期刊、維基百科等眾多方面得來的，總體來看，數(shù)據(jù)方面是比較依賴互聯(lián)網(wǎng)現(xiàn)有的公開數(shù)據(jù)。

在互聯(lián)網(wǎng)上文本參考的數(shù)量畢竟是有限的，GPT-3在數(shù)據(jù)參考方面已經(jīng)達(dá)到了千億級(jí)別，下一代的大模型在參考數(shù)量上達(dá)到萬億級(jí)別以上之后，就會(huì)出現(xiàn)數(shù)據(jù)短缺這一問題，讓訓(xùn)練出現(xiàn)瓶頸，在這種背景之下，合成數(shù)據(jù)的重要性就不斷的顯現(xiàn)出來。

合成數(shù)據(jù)擁有更低成本，更高效率和更高的質(zhì)量這三大特點(diǎn)，這也是合成數(shù)據(jù)所具有的優(yōu)勢(shì)，根據(jù)市場的調(diào)研機(jī)構(gòu)在預(yù)測中看到2024年人工智能數(shù)據(jù)分析中的數(shù)據(jù)其中大約60%都是從合成數(shù)據(jù)當(dāng)中得來的。