微軟人工智能 VALL-E 只需 3 秒即可模仿任何人的聲音

2023-01-13 14:40:14 編輯：壽平霄來(lái)源：

導(dǎo)讀微軟展示了可以模仿任何人類(lèi)聲音的人工智能。它被稱(chēng)為VALL-E，就像之前的DALL-E算法一樣。如果您知道，后者會(huì)根據(jù)文本創(chuàng)建圖像。VALL-E 可

微軟展示了可以模仿任何人類(lèi)聲音的人工智能。它被稱(chēng)為VALL-E，就像之前的DALL-E算法一樣。如果您知道，后者會(huì)根據(jù)文本創(chuàng)建圖像。

VALL-E 可以在短短三秒鐘內(nèi)通過(guò)聆聽(tīng)真人的聲音來(lái)模仿音色和說(shuō)話(huà)方式。雖然聽(tīng)起來(lái)有點(diǎn)像機(jī)器人的聲音，但效果還是很不錯(cuò)的。

微軟稱(chēng)其為“神經(jīng)編解碼器語(yǔ)言模型”。VALL-E 是在 EnCodec(一種使用機(jī)器學(xué)習(xí)技術(shù)的音頻編解碼器)的基礎(chǔ)上構(gòu)建的，該編解碼器由Meta一年前于 2022 年開(kāi)發(fā)。

其他文本轉(zhuǎn)語(yǔ)音方法考慮了波形。但是 VALL-E 從文本和音頻中生成單獨(dú)的音頻編解碼器。實(shí)際上，它分析了一個(gè)人的聲音。然后，它通過(guò) EnCodec 將該信息分解為單獨(dú)的部分(稱(chēng)為“令牌”)。最后，它使用訓(xùn)練數(shù)據(jù)來(lái)匹配它“知道”的內(nèi)容，即如果它說(shuō)出三秒樣本之外的其他短語(yǔ)，該聲音的發(fā)音會(huì)如何。

VALL-E 是使用特殊圖書(shū)館教授的。后者包含來(lái)自 7,000 多人的 60,000 小時(shí)英語(yǔ)演講。開(kāi)發(fā)人員建議該方法可用于高質(zhì)量的文本到語(yǔ)音應(yīng)用程序。例如，您可以使用它來(lái)編輯允許更改人類(lèi)單詞的語(yǔ)音記錄。因此，您可以創(chuàng)建音頻內(nèi)容(例如有聲讀物的畫(huà)外音)等。

當(dāng)然，這樣的技術(shù)也會(huì)帶來(lái)一定的危險(xiǎn)。遲早，“獨(dú)眼”用戶(hù)會(huì)將其變成勒索工具。比如說(shuō)，他們可以使用人工智能來(lái)證明名人說(shuō)過(guò)一些他們沒(méi)有說(shuō)過(guò)的話(huà)。視頻格式的 deepfakes已經(jīng)有這樣的案例。

標(biāo)簽：

免責(zé)聲明：本文由用戶(hù)上傳，如有侵權(quán)請(qǐng)聯(lián)系刪除！