您的位置: 首頁(yè) >產(chǎn)經(jīng) >

數(shù)據(jù)挖掘應(yīng)用于學(xué)術(shù)出版物 以最終揭示地球的生物多樣性

2019-10-22 11:44:20 編輯: 來(lái)源:
導(dǎo)讀 具有諷刺意味的是,根據(jù)聯(lián)合國(guó)最近的一份報(bào)告,具有諷刺意味的是,在一百萬(wàn)種物種瀕臨滅絕的時(shí)候,我們不知道地球上有多少種物種,我們也沒(méi)

具有諷刺意味的是,根據(jù)聯(lián)合國(guó)最近的一份報(bào)告,具有諷刺意味的是,在一百萬(wàn)種物種瀕臨滅絕的時(shí)候,我們不知道地球上有多少種物種,我們也沒(méi)有記錄下來(lái)所有我們已經(jīng)了解的物種。單一清單。實(shí)際上,我們甚至不知道我們會(huì)把這樣的物種列入清單。

包括全球2,000多家自然歷史機(jī)構(gòu)在內(nèi)的聯(lián)合研究,估計(jì)產(chǎn)生了約5億頁(yè)的學(xué)術(shù)出版物以及數(shù)以千萬(wàn)計(jì)的插圖和物種描述,其中包括我們目前所知道的有關(guān)生命多樣性的所有信息。但是,大多數(shù)內(nèi)容無(wú)法通過(guò)數(shù)字方式訪問(wèn)。即使是數(shù)字形式,我們每天的出版系統(tǒng)也無(wú)法跟上,因?yàn)槊刻齑蠹s有50種被描述為科學(xué)新物種,而所有這些都以純文本和PDF格式發(fā)布,而數(shù)據(jù)卻無(wú)法被機(jī)器開(kāi)采,從而需要人類將其提取。此外,這些出版物通常會(huì)出現(xiàn)在訂閱(封閉訪問(wèn))期刊中。

在生物多樣性文學(xué)庫(kù)(BLR)的聯(lián)合項(xiàng)目Plazi,Pensoft和Zenodo在歐洲核子研究中心,承擔(dān)挑戰(zhàn),開(kāi)拓進(jìn)入被困在科學(xué)出版物中的數(shù)據(jù),并找出我們有多少種知道到目前為止,是什么它們最重要的特征(也稱為描述或分類處理),以及它們?cè)诟鞣N圖像上的外觀。為此,BLR使用高度標(biāo)準(zhǔn)化的格式和術(shù)語(yǔ)(這是科學(xué)出版物所特有的)從主要供人類消費(fèi)的文字中發(fā)現(xiàn)和提取數(shù)據(jù)。

通過(guò)依靠最先進(jìn)的數(shù)據(jù)挖掘算法,BLR可以檢測(cè),提取和豐富數(shù)據(jù),包括DNA序列,標(biāo)本收集數(shù)據(jù)或相關(guān)描述,以及提供與數(shù)據(jù)來(lái)源的隱式鏈接:收集,存儲(chǔ)庫(kù)因此,BLR是世界上最大的生物分類治療,圖像及相關(guān)原始出版物的公共領(lǐng)域數(shù)據(jù)庫(kù)。

一旦獲得數(shù)據(jù),便立即將其分發(fā)給全球生物多樣性平臺(tái),例如GBIF(全球生物多樣性信息基金)。截至目前,大約有42,000種,其原始科學(xué)描述只能通過(guò)BLR獲得。

科學(xué)引用以前信息的最基本原則使我們能夠追溯特定物種的歷史,了解其知識(shí)隨著時(shí)間的推移如何增長(zhǎng),甚至了解這些物種的名稱是否以及多年來(lái)如何變化。結(jié)果,該服務(wù)是通過(guò)簡(jiǎn)單查找來(lái)發(fā)現(xiàn)生活目錄的一種途徑。

迄今為止,吸取的教訓(xùn)導(dǎo)致了TaxPub的發(fā)展,它是美國(guó)國(guó)家醫(yī)學(xué)圖書館期刊標(biāo)簽套件的擴(kuò)展,并在新的26種科學(xué)期刊中得到了應(yīng)用。結(jié)果,從發(fā)布過(guò)程開(kāi)始就可以通過(guò)機(jī)器訪問(wèn)與這些期刊中的文章相關(guān)的數(shù)據(jù)。因此,一旦論文發(fā)表,數(shù)據(jù)就會(huì)自動(dòng)添加到GBIF。

雖然BLR有望開(kāi)放數(shù)以百萬(wàn)計(jì)的科學(xué)圖示和說(shuō)明,但該系統(tǒng)的獨(dú)特之處在于,它使所有提取的數(shù)據(jù)都可查找,可訪問(wèn),可互操作且可重用(FAIR),并且隨時(shí)隨地對(duì)任何人開(kāi)放。最重要的是,其目的是創(chuàng)造一種新穎的方式來(lái)獲取科學(xué)文獻(xiàn)。

迄今為止,BLR已從38,000多種出版物中提取了約350,000種分類學(xué)治療方法和約200,000種數(shù)據(jù)。其中包括55,800個(gè)新物種,3,744個(gè)新屬和28個(gè)新科的描述。BLR有助于發(fā)現(xiàn)每年描述的約17,000種物種中的30%以上。

Pensoft的創(chuàng)始人兼首席執(zhí)行官Lyubomir Penev教授說(shuō):“看到由Plazi于15年前開(kāi)始并于2010年在Pensoft期刊中作為例行出版工作流程實(shí)施的TaxPub標(biāo)準(zhǔn)的開(kāi)發(fā)過(guò)程,我感到非常滿意,現(xiàn)在,我們已經(jīng)建立了一個(gè)完整的基礎(chǔ)架構(gòu),可以從全球各種期刊中自動(dòng)提取和分發(fā)生物多樣性數(shù)據(jù)。隨著歐洲生物分類設(shè)施聯(lián)合會(huì)(CETAF)最近宣布,他們的《歐洲生物分類學(xué)期刊》即將加入TaxPub俱樂(lè)部,更加有信心,我們正在為完全掌握世界生物多樣性的范圍鋪平正確的道路。”

Plazi聯(lián)合創(chuàng)始人兼總裁Donat Agosti博士補(bǔ)充說(shuō):“最后,信息技術(shù)使我們能夠創(chuàng)建全面的,擴(kuò)展的生命目錄,并闡明這一巨大的文化和科學(xué)遺產(chǎn)–地球上生命的描述“對(duì)所有人來(lái)說(shuō)。分類學(xué)治療的性質(zhì)是科學(xué)家對(duì)某個(gè)物種的發(fā)現(xiàn)的引證和綜合網(wǎng)絡(luò),這使我們能夠?qū)⒉煌念I(lǐng)域(如基因組學(xué)和分類學(xué))與自然歷史博物館的標(biāo)本聯(lián)系起來(lái)。”

歐洲核子研究組織(CERN)協(xié)作,設(shè)備和應(yīng)用小組負(fù)責(zé)人蒂姆·史密斯博士說(shuō):“將重點(diǎn)從傳達(dá)概念的論文轉(zhuǎn)移到概念本身是非常重要的一步。它使BLR提供了獨(dú)特的新方法。相互聯(lián)系的世界物種觀點(diǎn),其中分類學(xué)方法,其起源,歷史和插圖都相互關(guān)聯(lián),可訪問(wèn)和可找到,這對(duì)數(shù)字化其他研究領(lǐng)域的發(fā)展具有啟發(fā)性!”


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

最新文章

精彩推薦

圖文推薦

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082   備案號(hào):閩ICP備19027007號(hào)-6

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。