2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
哈佛大學(xué)工程與應(yīng)用科學(xué)學(xué)院(SEAS)和IBM研究院的研究人員在一個(gè)深度偽造和遠(yuǎn)離人類自然語言AI的世界中問道:有沒有更好的方法來幫助人們檢測(cè)AI生成的文本?
這個(gè)問題引發(fā)了Sebastian Gehrmann博士學(xué)位。SEAS的候選人和IBM的研究員Hendrik Strobelt開發(fā)了一種統(tǒng)計(jì)方法,以及一個(gè)開放式訪問 交互式工具,用于檢測(cè)AI生成的文本。
自然語言生成器通過預(yù)測(cè)最常見的單詞來訓(xùn)練數(shù)以千萬計(jì)的在線文本并模仿人類語言。例如,單詞“have”,“am”和“was”靜態(tài)地最有可能出現(xiàn)在單詞“I”之后。
使用這個(gè)想法,Gehrmann和Strobelt開發(fā)了一種方法,它不是識(shí)別文本中的錯(cuò)誤,而是識(shí)別過于可預(yù)測(cè)的文本。
“我們的想法是,隨著模型變得越來越好,它們肯定比人類更糟糕,可檢測(cè)到,與人類一樣好或更好,這可能很難用傳統(tǒng)方法檢測(cè)到,”格爾曼說。
“之前,你可以通過所有錯(cuò)誤來判斷文本是機(jī)器生成的,”Strobelt說。“現(xiàn)在,它不再是錯(cuò)誤,而是使用極有可能(并且有點(diǎn)無聊)的單詞來調(diào)出機(jī)器生成的文本。通過這個(gè)工具,人類和AI可以一起工作來檢測(cè)假文本。”
Gehrmann和Strobelt將于7月28日至8月2日在SEAS的計(jì)算機(jī)語言學(xué)會(huì)(ACL)會(huì)議上與SEAS計(jì)算機(jī)科學(xué)副學(xué)士Alexander Rush共同撰寫他們的研究成果。
Gehrmann和Strobelt的方法,稱為GLTR,基于一個(gè)模型,該模型使用來自網(wǎng)站的4500萬個(gè)文本 - 公共版本的OpenAI模型GPT-2。因?yàn)樗褂肎PT-2來檢測(cè)生成的文本,所以GLTR最適合GPT-2,但也可以很好地對(duì)抗其他模型。
以下是它的工作原理:
如果您將一段文本輸入到工具中,它會(huì)突出顯示綠色,黃色,紅色或紫色的文本,每種顏色都表示該單詞在其前面的單詞上下文中的可預(yù)測(cè)性。綠色意味著這個(gè)詞是非常可預(yù)測(cè)的,黃色,適度可預(yù)測(cè),紅色不可預(yù)測(cè),紫色意味著模型根本不會(huì)預(yù)測(cè)這個(gè)詞。
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號(hào):閩ICP備19027007號(hào)-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。