2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ 備案號:
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)
微軟,谷歌,英偉達等一系列硅谷的商業(yè)巨頭,對于合成數(shù)據領域相關的業(yè)務正在加速布局,合成數(shù)據也顯示出了多種的優(yōu)勢。合成數(shù)據是通過計算機技術人工所生成的,數(shù)據類型并不由真實的事件將數(shù)據產生,但合成數(shù)據同樣也具有可用性的特點,在數(shù)學和統(tǒng)計學領域,能夠將原始數(shù)據屬性反映出來可以作為原始數(shù)據的一種代替品,對于AI大模型進行訓練,并且驗證大模型的準確性。
大模型訓練過程中除了要有龐大數(shù)據量,支撐數(shù)據本身的質量也是極為重要的,ChatGPT在訓練的時候一共使用數(shù)據達到45TB,有將近1萬個單詞包含在內, ChatGPT等一系列大模型的訓練,主要是從書籍、期刊、維基百科等眾多方面得來的,總體來看,數(shù)據方面是比較依賴互聯(lián)網現(xiàn)有的公開數(shù)據。
在互聯(lián)網上文本參考的數(shù)量畢竟是有限的,GPT-3在數(shù)據參考方面已經達到了千億級別,下一代的大模型在參考數(shù)量上達到萬億級別以上之后,就會出現(xiàn)數(shù)據短缺這一問題,讓訓練出現(xiàn)瓶頸,在這種背景之下,合成數(shù)據的重要性就不斷的顯現(xiàn)出來。
合成數(shù)據擁有更低成本,更高效率和更高的質量這三大特點,這也是合成數(shù)據所具有的優(yōu)勢,根據市場的調研機構在預測中看到2024年人工智能數(shù)據分析中的數(shù)據其中大約60%都是從合成數(shù)據當中得來的。
以自動駕駛領域作為例子,在實際駕駛方面擁有著較為復雜的路況和很多的變量,極端天氣下會對路況信息獲得較為困難,通過合成數(shù)據,就可以將各種場景進行模擬的駕駛,既保證了安全,同時也讓駕駛能力提高。
2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ 備案號:
本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。
郵箱:toplearningteam#gmail.com (請將#換成@)