Bible幫助研究人員完善翻譯算法

2019-06-10 10:51:04 編輯：來源：

導(dǎo)讀為了尋找改進(jìn)計算機(jī)文本翻譯的靈感，達(dá)特茅斯學(xué)院的研究人員轉(zhuǎn)向圣經(jīng)尋求指導(dǎo)。結(jié)果是在各種版本的神圣文本上訓(xùn)練的算法可以將書面作品轉(zhuǎn)換

為了尋找改進(jìn)計算機(jī)文本翻譯的靈感，達(dá)特茅斯學(xué)院的研究人員轉(zhuǎn)向圣經(jīng)尋求指導(dǎo)。結(jié)果是在各種版本的神圣文本上訓(xùn)練的算法可以將書面作品轉(zhuǎn)換為針對不同觀眾的不同風(fēng)格。

互聯(lián)網(wǎng)工具翻譯文本，如英語和西班牙語被廣泛使用的語言之間。創(chuàng)建樣式轉(zhuǎn)換器 - 使文本保持相同語言但轉(zhuǎn)換樣式的工具 - 出現(xiàn)的速度要慢得多。在某種程度上，由于難以獲得所需的大量數(shù)據(jù)，開發(fā)譯員的努力受到了阻礙。這是研究小組轉(zhuǎn)向圣經(jīng)的地方。

除了成為全球許多人的精神指導(dǎo)之外，達(dá)特茅斯領(lǐng)導(dǎo)的團(tuán)隊還在圣經(jīng)中看到了“一個大型的，以前尚未開發(fā)的對齊平行文本數(shù)據(jù)集”。除了提供無限的靈感之外，每本版本的圣經(jīng)都包含超過31,000節(jié)經(jīng)文，研究人員用這些經(jīng)文為機(jī)器學(xué)習(xí)訓(xùn)練集生成超過150萬個源和目標(biāo)經(jīng)文的獨(dú)特配對。

根據(jù)發(fā)表在皇家學(xué)會開放科學(xué)期刊上的研究，這不是第一個為風(fēng)格翻譯創(chuàng)建的并行數(shù)據(jù)集。但它是第一個使用圣經(jīng)的人。過去使用的其他文本，從莎士比亞到維基百科條目，提供的數(shù)據(jù)集要么小得多，要么不適合學(xué)習(xí)風(fēng)格翻譯的任務(wù)。

“英語圣經(jīng)有許多不同的書面風(fēng)格，使其成為風(fēng)格翻譯的完美源文本，”博士Keith Carlson博士說。達(dá)特茅斯大學(xué)的學(xué)生和研究論文的主要作者。

作為研究團(tuán)隊的一個額外好處，圣經(jīng)已經(jīng)被書籍，章節(jié)和詩句數(shù)字的一致使用完全編入索引。跨版本的文本的可預(yù)測組織消除了可能由匹配相同文本的不同版本的自動方法引起的對齊錯誤的風(fēng)險。

“圣經(jīng)是一個'神圣的'數(shù)據(jù)集，可以用來研究這項任務(wù)，”達(dá)特茅斯計算機(jī)科學(xué)教授丹尼爾洛克莫爾說。“幾個世紀(jì)以來，人類一直在執(zhí)行組織圣經(jīng)文本的任務(wù)，因此我們不必將信仰置于不太可靠的對齊算法中。”

為了定義研究的“風(fēng)格”，研究人員參考句子長度，被動或主動語音的使用，以及可能導(dǎo)致文本具有不同程度的簡單性或形式的單詞選擇。根據(jù)這項研究：“不同的措辭可能會傳達(dá)不同程度的禮貌或?qū)ψx者的熟悉程度，展示關(guān)于作者的不同文化信息，對某些人群更容易理解。”

該團(tuán)隊使用了34種風(fēng)格獨(dú)特的圣經(jīng)版本，其語言復(fù)雜程度從“詹姆斯國王版”到“基礎(chǔ)英語圣經(jīng)”。這些文本被輸入兩種算法 - 一種稱為“摩西” 的統(tǒng)計機(jī)器翻譯系統(tǒng)和一種常用于機(jī)器翻譯的神經(jīng)網(wǎng)絡(luò)框架“Seq2Seq”。

雖然使用了不同版本的圣經(jīng)來訓(xùn)練計算機(jī)代碼，但最終可以開發(fā)出能夠?yàn)椴煌鼙姺g任何書面文本風(fēng)格的系統(tǒng)。例如，風(fēng)格翻譯可以從“Moby Dick”中選擇英語，并將其翻譯成適合年輕讀者，非英語母語人士或各種受眾中的任何一種的不同版本。

“文本簡化只是一種特定類型的風(fēng)格轉(zhuǎn)移。更廣泛地說，我們的系統(tǒng)旨在生成與原文具有相同含義的文本，但使用不同的單詞，”卡爾森說。

達(dá)特茅斯學(xué)院在計算機(jī)科學(xué)領(lǐng)域有著悠久的創(chuàng)新歷史。“人工智能”一詞是在1956年創(chuàng)建人工智能研究學(xué)科的會議期間在達(dá)特茅斯創(chuàng)造的。其他進(jìn)步包括BASIC的設(shè)計 - 第一個通用和可訪問的編程語言 - 以及為現(xiàn)代操作系統(tǒng)做出貢獻(xiàn)的達(dá)特茅斯時間共享系統(tǒng)。

標(biāo)簽：完善翻譯