2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
從某人聲音的音調(diào)中可以得到很多東西,這是一種自然的情感管道。 情緒有一系列的應(yīng)用:它可以通過幫助檢測癡呆或心臟病發(fā)作的早期跡象來幫助健康監(jiān)測,它有可能使會話AI系統(tǒng)更吸引人和更有反應(yīng)。 總有一天,情感甚至可能提供隱性反饋,幫助谷歌助理、蘋果Siri和亞馬遜Alexa等語音助理從錯誤中吸取教訓(xùn)。
情緒分類人工智能并不是什么新的東西,但傳統(tǒng)的方法是受監(jiān)督的,這意味著他們攝入根據(jù)說話者的情緒狀態(tài)標(biāo)記的訓(xùn)練數(shù)據(jù)。 亞馬遜的科學(xué)家們最近采取了一種不同的方法,他們在一篇預(yù)定在聲學(xué)、語音和信號處理國際會議上發(fā)表的論文中描述了這一點(diǎn)。 他們沒有提供一個詳盡注釋的“情感”語料庫來教授一個系統(tǒng),而是提供了一個對抗性的自動編碼器,一個公開可用的數(shù)據(jù)集,其中包含來自10個不同說話者的10,000個話語。 結(jié)果呢? 神經(jīng)網(wǎng)絡(luò)在判斷人們聲音中的價態(tài)或情感價值方面的準(zhǔn)確性高達(dá)4%。
這項研究基于亞馬遜Alexa團(tuán)隊正在進(jìn)行的努力,從用戶的聲音中可靠地確定用戶的情緒或情緒狀態(tài)。
正如論文合著者和Alexa語言組高級應(yīng)用科學(xué)家Viktor Rozgic在一篇博客文章中解釋的那樣,對抗性自動編碼器是由編碼器組成的兩部分模型,它學(xué)習(xí)產(chǎn)生編碼訓(xùn)練示例所有屬性的輸入語音的緊湊(或潛在)表示,以及一個解碼器,它從緊湊表示中重建輸入。
研究人員的情緒表示由三個網(wǎng)絡(luò)節(jié)點(diǎn)組成,三個情緒度量中的每一個節(jié)點(diǎn):價態(tài)、激活(無論說話人是警覺的、參與的還是被動的)和支配(無論說話人是否感覺到控制了情況)。 培訓(xùn)分三個階段進(jìn)行,第一階段包括使用沒有標(biāo)簽的數(shù)據(jù)單獨(dú)培訓(xùn)編碼器和解碼器。 在第二階段,對抗性訓(xùn)練-一種技術(shù),在這種技術(shù)中,對抗性鑒別器試圖區(qū)分編碼器產(chǎn)生的真實(shí)表示調(diào)整編碼器。 在第三階段,編碼器被調(diào)諧以確保潛在的情感表示預(yù)測訓(xùn)練數(shù)據(jù)的情感標(biāo)簽。
在涉及句子級特征表示的“手工工程”來捕獲關(guān)于語音信號的信息的實(shí)驗中,研究人員報告說,他們的人工智能系統(tǒng)在評估價態(tài)方面比常規(guī)訓(xùn)練的網(wǎng)絡(luò)了3%的更好的準(zhǔn)確性。 此外,他們說,當(dāng)網(wǎng)絡(luò)被提供一系列表示20毫秒幀或音頻片段的聲學(xué)特性時,改進(jìn)是4%。
亞馬遜不是唯一一家研究改進(jìn)的基于語音的情感檢測的公司,值得注意。 麻省理工學(xué)院媒體實(shí)驗室SpinoffAffectiva最近展示了一個神經(jīng)網(wǎng)絡(luò),SoundNet,它可以在1.2秒內(nèi)從音頻數(shù)據(jù)中對憤怒進(jìn)行分類-就在人類感知憤怒所需的時間內(nèi)-而不管說話者的語言如何。 同時,創(chuàng)業(yè)公司Cogito的AI被退伍事務(wù)部用來分析創(chuàng)傷后應(yīng)激障礙退伍的聲音,以確定他們是否需要立即幫助。
2016-2022 All Rights Reserved.平安財經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。