GPT-4眼科評(píng)估能力驚艷,但專家警告需審慎應(yīng)用

GPT-4眼科評(píng)估能力驚艷,但專家警告需審慎應(yīng)用

劍橋大學(xué)臨床醫(yī)學(xué)院的最新研究發(fā)現(xiàn),OpenAIGPT-4模型在眼科評(píng)估中的表現(xiàn)幾乎可與該領(lǐng)域的專家相媲美。這一突破性成果在金融時(shí)報(bào)首次報(bào)道后,引起了醫(yī)療和科技界的廣泛關(guān)注。

在這項(xiàng)發(fā)表在PLOS數(shù)字健康雜志上的研究中,研究人員對(duì)GPT-4及其前身GPT-3.5、谷歌的PaLM 2以及梅塔美洲駝進(jìn)行了眼科知識(shí)測(cè)試。測(cè)試內(nèi)容涵蓋了從光敏感到病變等各個(gè)方面的87道選擇題,難度與眼科教科書中的題目相當(dāng)。五名眼科專家、三名實(shí)習(xí)眼科醫(yī)生和兩名非專業(yè)初級(jí)醫(yī)生也接受了相同的模擬考試。值得注意的是,這些題目對(duì)于LLM模型而言是全新的,因?yàn)樗鼈冎安⑽唇佑|過相關(guān)內(nèi)容。

在測(cè)試中,GPT-4展現(xiàn)了令人印象深刻的表現(xiàn),答對(duì)了60道問題,得分高于實(shí)習(xí)醫(yī)生和初級(jí)醫(yī)生。盡管這一成績(jī)略遜于眼科專家的平均得分66.4,但已足以顯示其在眼科評(píng)估領(lǐng)域的巨大潛力。相比之下,PaLM 2、GPT-3.5和梅塔美洲駝的得分分別為49分、42分和28分,均低于初級(jí)醫(yī)生的平均水平。

然而,盡管這些結(jié)果展示了LLM在醫(yī)療領(lǐng)域的潛在應(yīng)用,研究人員也警告稱,必須謹(jǐn)慎對(duì)待這些模型的輸出結(jié)果。他們指出,測(cè)試中的問題數(shù)量有限,特別是在某些類別中,這可能導(dǎo)致實(shí)際結(jié)果有所偏差。此外,LLM模型存在“幻覺”現(xiàn)象,即生成不相關(guān)或錯(cuò)誤的事實(shí),這在醫(yī)療領(lǐng)域尤為危險(xiǎn)。如果模型錯(cuò)誤地診斷出白內(nèi)障或癌癥等嚴(yán)重疾病,將可能對(duì)患者造成嚴(yán)重后果。

研究人員強(qiáng)調(diào),雖然LLM模型在眼科評(píng)估中展現(xiàn)了令人鼓舞的初步成果,但在實(shí)際應(yīng)用中仍需謹(jǐn)慎對(duì)待。未來,應(yīng)進(jìn)一步探索如何提高模型的準(zhǔn)確性和可靠性,以確保其能夠安全、有效地服務(wù)于醫(yī)療領(lǐng)域。

此項(xiàng)研究為L(zhǎng)LM模型在醫(yī)療領(lǐng)域的應(yīng)用提供了新的視角,也提醒我們?cè)谧非蠹夹g(shù)進(jìn)步的同時(shí),必須關(guān)注其潛在的風(fēng)險(xiǎn)和局限性。隨著LLM技術(shù)的不斷發(fā)展,我們期待未來能夠看到更多關(guān)于其如何在醫(yī)療領(lǐng)域造福社會(huì)的報(bào)道。

原創(chuàng)文章,作者:若安丶,如若轉(zhuǎn)載,請(qǐng)注明出處:http://2079x.cn/article/648782.html

若安丶的頭像若安丶管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論