劍橋大學(xué)臨床醫(yī)學(xué)院的最新研究發(fā)現(xiàn),OpenAI的GPT-4模型在眼科評估中的表現(xiàn)幾乎可與該領(lǐng)域的專家相媲美。這一突破性成果在金融時(shí)報(bào)首次報(bào)道后,引起了醫(yī)療和科技界的廣泛關(guān)注。
在這項(xiàng)發(fā)表在PLOS數(shù)字健康雜志上的研究中,研究人員對GPT-4及其前身GPT-3.5、谷歌的PaLM 2以及梅塔美洲駝進(jìn)行了眼科知識測試。測試內(nèi)容涵蓋了從光敏感到病變等各個(gè)方面的87道選擇題,難度與眼科教科書中的題目相當(dāng)。五名眼科專家、三名實(shí)習(xí)眼科醫(yī)生和兩名非專業(yè)初級醫(yī)生也接受了相同的模擬考試。值得注意的是,這些題目對于LLM模型而言是全新的,因?yàn)樗鼈冎安⑽唇佑|過相關(guān)內(nèi)容。
在測試中,GPT-4展現(xiàn)了令人印象深刻的表現(xiàn),答對了60道問題,得分高于實(shí)習(xí)醫(yī)生和初級醫(yī)生。盡管這一成績略遜于眼科專家的平均得分66.4,但已足以顯示其在眼科評估領(lǐng)域的巨大潛力。相比之下,PaLM 2、GPT-3.5和梅塔美洲駝的得分分別為49分、42分和28分,均低于初級醫(yī)生的平均水平。
然而,盡管這些結(jié)果展示了LLM在醫(yī)療領(lǐng)域的潛在應(yīng)用,研究人員也警告稱,必須謹(jǐn)慎對待這些模型的輸出結(jié)果。他們指出,測試中的問題數(shù)量有限,特別是在某些類別中,這可能導(dǎo)致實(shí)際結(jié)果有所偏差。此外,LLM模型存在“幻覺”現(xiàn)象,即生成不相關(guān)或錯(cuò)誤的事實(shí),這在醫(yī)療領(lǐng)域尤為危險(xiǎn)。如果模型錯(cuò)誤地診斷出白內(nèi)障或癌癥等嚴(yán)重疾病,將可能對患者造成嚴(yán)重后果。
研究人員強(qiáng)調(diào),雖然LLM模型在眼科評估中展現(xiàn)了令人鼓舞的初步成果,但在實(shí)際應(yīng)用中仍需謹(jǐn)慎對待。未來,應(yīng)進(jìn)一步探索如何提高模型的準(zhǔn)確性和可靠性,以確保其能夠安全、有效地服務(wù)于醫(yī)療領(lǐng)域。
此項(xiàng)研究為LLM模型在醫(yī)療領(lǐng)域的應(yīng)用提供了新的視角,也提醒我們在追求技術(shù)進(jìn)步的同時(shí),必須關(guān)注其潛在的風(fēng)險(xiǎn)和局限性。隨著LLM技術(shù)的不斷發(fā)展,我們期待未來能夠看到更多關(guān)于其如何在醫(yī)療領(lǐng)域造福社會的報(bào)道。
原創(chuàng)文章,作者:若安丶,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/648782.html