您的位置: 首頁 >要聞 >

化學(xué)家利用人工智能預(yù)測(cè)化學(xué)反應(yīng)的未來

2023-01-15 11:34:18 編輯:朱苑飄 來源:
導(dǎo)讀 A BartonHepburn化學(xué)教授AbigailDoyle帶領(lǐng)來自普林斯頓大學(xué)和默克公司的一組研究人員開發(fā)了最先進(jìn)的軟件來預(yù)測(cè)最多四種組分變化時(shí)的反應(yīng)產(chǎn)

A.BartonHepburn化學(xué)教授AbigailDoyle帶領(lǐng)來自普林斯頓大學(xué)和默克公司的一組研究人員開發(fā)了最先進(jìn)的軟件來預(yù)測(cè)最多四種組分變化時(shí)的反應(yīng)產(chǎn)量。他們的軟件旨在處理任何底物上的任何反應(yīng),使其成為加速新藥合成的強(qiáng)大工具。

為了制造藥物,化學(xué)家必須找到正確的化學(xué)物質(zhì)組合來制造必要的化學(xué)結(jié)構(gòu)。這比聽起來更復(fù)雜,因?yàn)榈湫偷幕瘜W(xué)反應(yīng)使用幾種不同的成分,并且涉及的每種化學(xué)物質(zhì)都為計(jì)算增加了另一個(gè)維度。

德里克·阿內(nèi)曼

DerekAhneman,2017年博士研究生,提議使用機(jī)器學(xué)習(xí)來模擬反應(yīng)產(chǎn)率,同時(shí)修改四種不同的反應(yīng)成分,這是一項(xiàng)比一次修改一個(gè)變量困難得多的努力。“一開始,我們就知道要克服許多挑戰(zhàn),”他說。“我們甚至不確定這是否可能。”

在理想情況下,化學(xué)家希望預(yù)測(cè)哪種化學(xué)品組合能夠提供最高產(chǎn)率的產(chǎn)品并避免意外副產(chǎn)品或其他損失,但事實(shí)證明,預(yù)測(cè)這些多維反應(yīng)的結(jié)果具有挑戰(zhàn)性。

耶穌埃斯特拉達(dá)

Doyle實(shí)驗(yàn)室的研究生JesúsEstrada完成了使用“隨機(jī)森林”機(jī)器學(xué)習(xí)方法預(yù)測(cè)化學(xué)產(chǎn)量的軟件開發(fā)。

由普林斯頓大學(xué)A.BartonHepburn化學(xué)教授AbigailDoyle和默克研究實(shí)驗(yàn)室的SpencerDreher領(lǐng)導(dǎo)的一組研究人員找到了一種方法,可以通過應(yīng)用人工智能稱為機(jī)器學(xué)習(xí)。他們已將他們的方法轉(zhuǎn)化為軟件,供其他化學(xué)家使用。他們于2月15日在《科學(xué)》雜志上發(fā)表了他們的研究。

“我們開發(fā)的軟件旨在適應(yīng)任何反應(yīng)或底物類型,”Doyle說。“這個(gè)想法是讓某人應(yīng)用這個(gè)工具,并希望在它的基礎(chǔ)上進(jìn)行其他反應(yīng)。”

她說,大量的資源和時(shí)間被花費(fèi)在制造合成分子上,而且通常是以一種臨時(shí)的方式。使用這種新軟件,化學(xué)家可以更便宜、更高效地識(shí)別化學(xué)品和底物的高產(chǎn)組合。

“我們希望這將成為加速新藥合成的寶貴工具,”完成化學(xué)博士學(xué)位的DerekAhneman說。2017年在Doyle的實(shí)驗(yàn)室工作,并在IBM工作。

“其中許多機(jī)器學(xué)習(xí)算法已經(jīng)存在了很長(zhǎng)一段時(shí)間,”Doyle實(shí)驗(yàn)室的研究生JesúsEstrada說,他為這項(xiàng)研究和論文做出了貢獻(xiàn)。“然而,在合成有機(jī)化學(xué)界,我們確實(shí)還沒有利用機(jī)器學(xué)習(xí)提供的令人興奮的機(jī)會(huì)。”

“作為化學(xué)家,我們傳統(tǒng)上偏離了多維分析,”Doyle說。“我們一次只看一個(gè)變量,或者一系列底物的一組條件。”

當(dāng)Ahneman告訴Doyle他想使用機(jī)器學(xué)習(xí)來解決多維問題時(shí),她鼓勵(lì)了他。“我總是——尤其是對(duì)我最有才華的學(xué)生——試著讓他們?cè)诓┦康淖詈笠荒曜杂砂l(fā)揮,”她說。“這是他向我提出的項(xiàng)目。”

Doyle和Ahneman著手在修改四種反應(yīng)成分的同時(shí)模擬反應(yīng)產(chǎn)率,這比一次修改一個(gè)變量要困難得多。

“一開始,我們就知道需要克服許多挑戰(zhàn),”Ahneman說。“我們甚至不確定這是否可能。”

他說,從歷史上看,開發(fā)多維模型的一個(gè)障礙是收集足夠的反應(yīng)產(chǎn)率數(shù)據(jù)以建立有效的“訓(xùn)練集”。但最近,默克公司發(fā)明了機(jī)器人系統(tǒng),可以在幾天內(nèi)運(yùn)行數(shù)千次反應(yīng)。

“我很高興我們一起生成的數(shù)據(jù)質(zhì)量非常高,而且他們能夠創(chuàng)建有效的模型,”默克化學(xué)能力和篩選部門的首席科學(xué)家Dreher說。“希望我們可以繼續(xù)開發(fā)這種方法,并減少我們對(duì)篩選的依賴,從而更快地制造出我們需要的設(shè)計(jì)分子。”

另一個(gè)挑戰(zhàn)是計(jì)算每種化學(xué)物質(zhì)的定量描述符以用作模型的輸入。這些描述符通常是一個(gè)一個(gè)地計(jì)算出來的,這對(duì)于他們想要使用的大量化學(xué)組合來說是不切實(shí)際的。

他們通過編寫使用現(xiàn)有程序Spartan的代碼來計(jì)算并提取模型中使用的每種化學(xué)物質(zhì)的描述符,從而克服了這一限制。

一旦他們有了定量描述符,他們就嘗試了幾種統(tǒng)計(jì)方法。首先,他們使用行業(yè)標(biāo)準(zhǔn)線性回歸,但發(fā)現(xiàn)它無法準(zhǔn)確預(yù)測(cè)反應(yīng)產(chǎn)率。然后,他們探索了多種常見的機(jī)器學(xué)習(xí)模型,發(fā)現(xiàn)一種稱為“隨機(jī)森林”的模型提供了驚人準(zhǔn)確的產(chǎn)量預(yù)測(cè)。

隨機(jī)森林模型的工作原理是從訓(xùn)練數(shù)據(jù)集中隨機(jī)選擇小樣本,并使用該樣本構(gòu)建決策樹。然后,每個(gè)單獨(dú)的決策樹預(yù)測(cè)給定反應(yīng)的產(chǎn)率,然后將結(jié)果在樹中取平均值以生成總體產(chǎn)率預(yù)測(cè)。

當(dāng)研究人員發(fā)現(xiàn)使用隨機(jī)森林時(shí),另一個(gè)突破出現(xiàn)了,“可以使用'僅'數(shù)百個(gè)反應(yīng)(而不是數(shù)千個(gè))的結(jié)果準(zhǔn)確預(yù)測(cè)反應(yīng)產(chǎn)率,這是一個(gè)沒有機(jī)器人的化學(xué)家可以自己完成的數(shù)字,”Ahneman說。

“Doyle教授和她的合作者以巧妙的方式應(yīng)用人工智能來解決簡(jiǎn)單線性模型無法很好處理的問題,”威斯康星大學(xué)麥迪遜分校數(shù)學(xué)和生物化學(xué)教授JulieMitchell說,她并未參與該項(xiàng)目。這個(gè)調(diào)查。“在化學(xué)空間中,微小的變化會(huì)產(chǎn)生戲劇性的結(jié)果,而這種現(xiàn)象可以更好地被他們的隨機(jī)森林模型捕捉到。”

Doyle的團(tuán)隊(duì)還發(fā)現(xiàn),隨機(jī)森林模型可以預(yù)測(cè)未包含在訓(xùn)練集中的化合物的產(chǎn)量。

“所使用的技術(shù)完全是最先進(jìn)的,”巴黎科學(xué)與文學(xué)大學(xué)計(jì)算生物學(xué)中心的機(jī)器學(xué)習(xí)研究員Chloé-AgatheAzencott說,他沒有參與這項(xiàng)研究。“論文中的相關(guān)圖非常好,我認(rèn)為我們可以設(shè)想在未來依賴這些預(yù)測(cè),這將限制對(duì)昂貴的實(shí)驗(yàn)室實(shí)驗(yàn)的需求。”

“這些結(jié)果令人興奮,因?yàn)樗鼈儽砻鬟@種方法可用于預(yù)測(cè)從未制造過起始材料的反應(yīng)的產(chǎn)率,這將有助于最大程度地減少制造費(fèi)時(shí)的化學(xué)品的消耗,”Ahneman說。“總的來說,這種方法有望(1)使用尚未制成的起始材料預(yù)測(cè)反應(yīng)的產(chǎn)率,以及(2)預(yù)測(cè)與已知起始材料和產(chǎn)物反應(yīng)的最佳條件。”

Ahneman完成學(xué)位后,Estrada繼續(xù)研究。Doyle說,我們的目標(biāo)是創(chuàng)建不僅像Ahneman和Estrada這樣的計(jì)算機(jī)專家而且更廣泛的合成化學(xué)社區(qū)都可以訪問的軟件。

她解釋了該軟件的工作原理:“你畫出結(jié)構(gòu)——起始材料、催化劑、堿——軟件將找出所有這些結(jié)構(gòu)之間的共享描述符。那是你的輸入。結(jié)果是反應(yīng)的產(chǎn)率。機(jī)器學(xué)習(xí)將所有這些描述符與產(chǎn)量相匹配,目標(biāo)是你可以放入任何結(jié)構(gòu),它會(huì)告訴你反應(yīng)的結(jié)果。

“我們的想法是幫助人們?cè)跓o法憑直覺判斷結(jié)果的多維空間中導(dǎo)航,”Doyle說。

DerekAhneman、JesúsEstrada、ShishiLin、SpencerDreher和AbigailDoyle的論文“使用機(jī)器學(xué)習(xí)預(yù)測(cè)C-N交叉偶聯(lián)的反應(yīng)性能”于2月15日發(fā)表在《科學(xué)》雜志上。普林斯頓大學(xué)、安進(jìn)青年研究者獎(jiǎng)和Camille-Dreyfus教師學(xué)者獎(jiǎng)提供了財(cái)政支持。


免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

猜你喜歡

點(diǎn)擊排行

2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ   備案號(hào):

本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。

郵箱:toplearningteam#gmail.com (請(qǐng)將#換成@)