2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。
在SIIM20虛擬會議期間的一次網(wǎng)絡(luò)研討會上,斯坦福大學(xué)生物醫(yī)學(xué)數(shù)據(jù)科學(xué)教授兼生物醫(yī)學(xué)信息學(xué)總監(jiān)Daniel Rubin博士指出,開發(fā)健壯的AI算法面臨挑戰(zhàn)。
魯賓解釋說,大多數(shù)AI模型僅由一兩個(gè)機(jī)構(gòu)的數(shù)據(jù)構(gòu)建而成,可能不會推廣到以前從未見過的數(shù)據(jù)。它可能無法區(qū)分患者人群的差異以及成像設(shè)備或參數(shù)的差異,并且罕見疾病可能不足。魯賓說:“這些數(shù)據(jù)可能無法代表現(xiàn)實(shí)世界。”
最近的一項(xiàng)研究對來自三個(gè)用于檢測的不同機(jī)構(gòu)的近16萬張胸部X射線進(jìn)行了研究,發(fā)現(xiàn)結(jié)果基于用于訓(xùn)練和測試的數(shù)據(jù)集而有所不同。
“總的來說,可靠性是一個(gè)問題,取決于如何訓(xùn)練數(shù)據(jù),”魯賓說。
解決該問題的一種方法是擴(kuò)充數(shù)據(jù),并在其他圖像上訓(xùn)練模型。
“最終,這還不夠,”魯賓說。“您確實(shí)需要獲取盡可能多的帶注釋的數(shù)據(jù)。而且,不可能獲得無數(shù)的質(zhì)量注釋數(shù)據(jù),因?yàn)樵谕瓿杀狙芯坎⒃噲D說服放射科醫(yī)生注釋病例后,將這些注釋完成是非常昂貴的。您知道他們免費(fèi)為這些注釋做些什么。”
可以使用尚未注釋的圖像生成所謂的“弱數(shù)據(jù)”,并為其生成標(biāo)簽。魯賓引用了最近的一項(xiàng)研究,即針對200,000個(gè)帶有弱標(biāo)簽的案例的算法要比針對20,000個(gè)帶有高質(zhì)量標(biāo)簽的案例進(jìn)行訓(xùn)練的算法更好。
魯賓說:“您擁有的數(shù)據(jù)越多,性能越好”。
最好從多個(gè)站點(diǎn)收集數(shù)據(jù),但這具有挑戰(zhàn)性,涉及與存儲和合法性有關(guān)的問題。魯賓說,一種解決方案是聯(lián)合學(xué)習(xí),即“將模型帶入數(shù)據(jù),而不是將數(shù)據(jù)帶入模型”。但是,集中式數(shù)據(jù)通常更好,跨站點(diǎn)數(shù)據(jù)的異質(zhì)性會降低聯(lián)合學(xué)習(xí),跨站點(diǎn)的標(biāo)簽存在差異,并且并非所有機(jī)構(gòu)都具有足夠的IT硬件。
哈佛大學(xué)醫(yī)學(xué)院放射學(xué)副教授,麻省總醫(yī)院神經(jīng)科學(xué)助理Jayashree Kalpathy-Cramer指出,在算法啟動和運(yùn)行時(shí)進(jìn)入障礙很低,尤其是在時(shí)代。盡管如今創(chuàng)建AI算法非常容易,但是創(chuàng)建寬泛,健壯,公正,公正,自我意識并提供不確定性度量的AI算法卻很困難。
Kalpathy-Cramer說:“大多數(shù)出版物對數(shù)據(jù)集的偏見都非常大,因?yàn)榕c正常病例或相比,它們對COVID病例使用了不同的數(shù)據(jù)集。”“我們最終看到的是,這些應(yīng)該以如此高的水平執(zhí)行的算法實(shí)際上只是在學(xué)習(xí)數(shù)據(jù)集之間的差異。”
2016-2022 All Rights Reserved.平安財(cái)經(jīng)網(wǎng).復(fù)制必究 聯(lián)系QQ280 715 8082 備案號:閩ICP備19027007號-6
本站除標(biāo)明“本站原創(chuàng)”外所有信息均轉(zhuǎn)載自互聯(lián)網(wǎng) 版權(quán)歸原作者所有。