您的位置: 首頁(yè) >要聞 >

微軟人工智能 VALL-E 只需 3 秒即可模仿任何人的聲音

2023-01-13 14:40:14 編輯:壽平霄 來(lái)源:
導(dǎo)讀 微軟展示了可以模仿任何人類(lèi)聲音的人工智能。它被稱(chēng)為VALL-E,就像之前的DALL-E算法一樣。如果您知道,后者會(huì)根據(jù)文本創(chuàng)建圖像。VALL-E 可

微軟展示了可以模仿任何人類(lèi)聲音的人工智能。它被稱(chēng)為VALL-E,就像之前的DALL-E算法一樣。如果您知道,后者會(huì)根據(jù)文本創(chuàng)建圖像。

VALL-E 可以在短短三秒鐘內(nèi)通過(guò)聆聽(tīng)真人的聲音來(lái)模仿音色和說(shuō)話(huà)方式。雖然聽(tīng)起來(lái)有點(diǎn)像機(jī)器人的聲音,但效果還是很不錯(cuò)的。

微軟稱(chēng)其為“神經(jīng)編解碼器語(yǔ)言模型”。VALL-E 是在 EnCodec(一種使用機(jī)器學(xué)習(xí)技術(shù)的音頻編解碼器)的基礎(chǔ)上構(gòu)建的,該編解碼器由Meta一年前于 2022 年開(kāi)發(fā)。

其他文本轉(zhuǎn)語(yǔ)音方法考慮了波形。但是 VALL-E 從文本和音頻中生成單獨(dú)的音頻編解碼器。實(shí)際上,它分析了一個(gè)人的聲音。然后,它通過(guò) EnCodec 將該信息分解為單獨(dú)的部分(稱(chēng)為“令牌”)。最后,它使用訓(xùn)練數(shù)據(jù)來(lái)匹配它“知道”的內(nèi)容,即如果它說(shuō)出三秒樣本之外的其他短語(yǔ),該聲音的發(fā)音會(huì)如何。

VALL-E 是使用特殊圖書(shū)館教授的。后者包含來(lái)自 7,000 多人的 60,000 小時(shí)英語(yǔ)演講。開(kāi)發(fā)人員建議該方法可用于高質(zhì)量的文本到語(yǔ)音應(yīng)用程序。例如,您可以使用它來(lái)編輯允許更改人類(lèi)單詞的語(yǔ)音記錄。因此,您可以創(chuàng)建音頻內(nèi)容(例如有聲讀物的畫(huà)外音)等。

當(dāng)然,這樣的技術(shù)也會(huì)帶來(lái)一定的危險(xiǎn)。遲早,“獨(dú)眼”用戶(hù)會(huì)將其變成勒索工具。比如說(shuō),他們可以使用人工智能來(lái)證明名人說(shuō)過(guò)一些他們沒(méi)有說(shuō)過(guò)的話(huà)。視頻格式的 deepfakes已經(jīng)有這樣的案例。


免責(zé)聲明:本文由用戶(hù)上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

猜你喜歡

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ   備案號(hào):

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。

郵箱:toplearningteam#gmail.com (請(qǐng)將#換成@)