2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號(hào):
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請(qǐng)將#換成@)
微軟展示了可以模仿任何人類(lèi)聲音的人工智能。它被稱(chēng)為VALL-E,就像之前的DALL-E算法一樣。如果您知道,后者會(huì)根據(jù)文本創(chuàng)建圖像。
VALL-E 可以在短短三秒鐘內(nèi)通過(guò)聆聽(tīng)真人的聲音來(lái)模仿音色和說(shuō)話(huà)方式。雖然聽(tīng)起來(lái)有點(diǎn)像機(jī)器人的聲音,但效果還是很不錯(cuò)的。
微軟稱(chēng)其為“神經(jīng)編解碼器語(yǔ)言模型”。VALL-E 是在 EnCodec(一種使用機(jī)器學(xué)習(xí)技術(shù)的音頻編解碼器)的基礎(chǔ)上構(gòu)建的,該編解碼器由Meta一年前于 2022 年開(kāi)發(fā)。
其他文本轉(zhuǎn)語(yǔ)音方法考慮了波形。但是 VALL-E 從文本和音頻中生成單獨(dú)的音頻編解碼器。實(shí)際上,它分析了一個(gè)人的聲音。然后,它通過(guò) EnCodec 將該信息分解為單獨(dú)的部分(稱(chēng)為“令牌”)。最后,它使用訓(xùn)練數(shù)據(jù)來(lái)匹配它“知道”的內(nèi)容,即如果它說(shuō)出三秒樣本之外的其他短語(yǔ),該聲音的發(fā)音會(huì)如何。
VALL-E 是使用特殊圖書(shū)館教授的。后者包含來(lái)自 7,000 多人的 60,000 小時(shí)英語(yǔ)演講。開(kāi)發(fā)人員建議該方法可用于高質(zhì)量的文本到語(yǔ)音應(yīng)用程序。例如,您可以使用它來(lái)編輯允許更改人類(lèi)單詞的語(yǔ)音記錄。因此,您可以創(chuàng)建音頻內(nèi)容(例如有聲讀物的畫(huà)外音)等。
當(dāng)然,這樣的技術(shù)也會(huì)帶來(lái)一定的危險(xiǎn)。遲早,“獨(dú)眼”用戶(hù)會(huì)將其變成勒索工具。比如說(shuō),他們可以使用人工智能來(lái)證明名人說(shuō)過(guò)一些他們沒(méi)有說(shuō)過(guò)的話(huà)。視頻格式的 deepfakes已經(jīng)有這樣的案例。
俄羅斯紀(jì)念衛(wèi)國(guó)戰(zhàn)爭(zhēng)勝利78周年,普京出席紅場(chǎng)閱兵式
中國(guó)駐加拿大領(lǐng)事官員遭驅(qū)逐引發(fā)嚴(yán)重關(guān)切與抗議
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ 備案號(hào):
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
郵箱:toplearningteam#gmail.com (請(qǐng)將#換成@)