您的位置: 首頁 >互聯(lián)網 >

Bible幫助研究人員完善翻譯算法

2019-06-10 10:51:04 編輯: 來源:
導讀 為了尋找改進計算機文本翻譯的靈感,達特茅斯學院的研究人員轉向圣經尋求指導。結果是在各種版本的神圣文本上訓練的算法可以將書面作品轉換

為了尋找改進計算機文本翻譯的靈感,達特茅斯學院的研究人員轉向圣經尋求指導。結果是在各種版本的神圣文本上訓練的算法可以將書面作品轉換為針對不同觀眾的不同風格。

互聯(lián)網工具翻譯文本,如英語和西班牙語被廣泛使用的語言之間。創(chuàng)建樣式轉換器 - 使文本保持相同語言但轉換樣式的工具 - 出現(xiàn)的速度要慢得多。在某種程度上,由于難以獲得所需的大量數(shù)據,開發(fā)譯員的努力受到了阻礙。這是研究小組轉向圣經的地方。

除了成為全球許多人的精神指導之外,達特茅斯領導的團隊還在圣經中看到了“一個大型的,以前尚未開發(fā)的對齊平行文本數(shù)據集”。除了提供無限的靈感之外,每本版本的圣經都包含超過31,000節(jié)經文,研究人員用這些經文為機器學習訓練集生成超過150萬個源和目標經文的獨特配對。

根據發(fā)表在皇家學會開放科學期刊上的研究,這不是第一個為風格翻譯創(chuàng)建的并行數(shù)據集。但它是第一個使用圣經的人。過去使用的其他文本,從莎士比亞到維基百科條目,提供的數(shù)據集要么小得多,要么不適合學習風格翻譯的任務。

“英語圣經有許多不同的書面風格,使其成為風格翻譯的完美源文本,”博士Keith Carlson博士說。達特茅斯大學的學生和研究論文的主要作者。

作為研究團隊的一個額外好處,圣經已經被書籍,章節(jié)和詩句數(shù)字的一致使用完全編入索引。跨版本的文本的可預測組織消除了可能由匹配相同文本的不同版本的自動方法引起的對齊錯誤的風險。

“圣經是一個'神圣的'數(shù)據集,可以用來研究這項任務,”達特茅斯計算機科學教授丹尼爾洛克莫爾說。“幾個世紀以來,人類一直在執(zhí)行組織圣經文本的任務,因此我們不必將信仰置于不太可靠的對齊算法中。”

為了定義研究的“風格”,研究人員參考句子長度,被動或主動語音的使用,以及可能導致文本具有不同程度的簡單性或形式的單詞選擇。根據這項研究:“不同的措辭可能會傳達不同程度的禮貌或對讀者的熟悉程度,展示關于作者的不同文化信息,對某些人群更容易理解。”

該團隊使用了34種風格獨特的圣經版本,其語言復雜程度從“詹姆斯國王版”到“基礎英語圣經”。這些文本被輸入兩種算法 - 一種稱為“摩西” 的統(tǒng)計機器翻譯系統(tǒng)和一種常用于機器翻譯的神經網絡框架“Seq2Seq”。

雖然使用了不同版本的圣經來訓練計算機代碼,但最終可以開發(fā)出能夠為不同受眾翻譯任何書面文本風格的系統(tǒng)。例如,風格翻譯可以從“Moby Dick”中選擇英語,并將其翻譯成適合年輕讀者,非英語母語人士或各種受眾中的任何一種的不同版本。

“文本簡化只是一種特定類型的風格轉移。更廣泛地說,我們的系統(tǒng)旨在生成與原文具有相同含義的文本,但使用不同的單詞,”卡爾森說。

達特茅斯學院在計算機科學領域有著悠久的創(chuàng)新歷史。“人工智能”一詞是在1956年創(chuàng)建人工智能研究學科的會議期間在達特茅斯創(chuàng)造的。其他進步包括BASIC的設計 - 第一個通用和可訪問的編程語言 - 以及為現(xiàn)代操作系統(tǒng)做出貢獻的達特茅斯時間共享系統(tǒng)。


免責聲明:本文由用戶上傳,如有侵權請聯(lián)系刪除!

精彩推薦

圖文推薦

點擊排行

2016-2022 All Rights Reserved.平安財經網.復制必究 聯(lián)系QQ280 715 8082   備案號:閩ICP備19027007號-6

本站除標明“本站原創(chuàng)”外所有信息均轉載自互聯(lián)網 版權歸原作者所有。