GPT-4眼科評估能力驚艷,但專家警告需審慎應用

GPT-4眼科評估能力驚艷,但專家警告需審慎應用

劍橋大學臨床醫(yī)學院的最新研究發(fā)現(xiàn),OpenAIGPT-4模型在眼科評估中的表現(xiàn)幾乎可與該領域的專家相媲美。這一突破性成果在金融時報首次報道后,引起了醫(yī)療和科技界的廣泛關注。

在這項發(fā)表在PLOS數(shù)字健康雜志上的研究中,研究人員對GPT-4及其前身GPT-3.5、谷歌的PaLM 2以及梅塔美洲駝進行了眼科知識測試。測試內容涵蓋了從光敏感到病變等各個方面的87道選擇題,難度與眼科教科書中的題目相當。五名眼科專家、三名實習眼科醫(yī)生和兩名非專業(yè)初級醫(yī)生也接受了相同的模擬考試。值得注意的是,這些題目對于LLM模型而言是全新的,因為它們之前并未接觸過相關內容。

在測試中,GPT-4展現(xiàn)了令人印象深刻的表現(xiàn),答對了60道問題,得分高于實習醫(yī)生和初級醫(yī)生。盡管這一成績略遜于眼科專家的平均得分66.4,但已足以顯示其在眼科評估領域的巨大潛力。相比之下,PaLM 2、GPT-3.5和梅塔美洲駝的得分分別為49分、42分和28分,均低于初級醫(yī)生的平均水平。

然而,盡管這些結果展示了LLM在醫(yī)療領域的潛在應用,研究人員也警告稱,必須謹慎對待這些模型的輸出結果。他們指出,測試中的問題數(shù)量有限,特別是在某些類別中,這可能導致實際結果有所偏差。此外,LLM模型存在“幻覺”現(xiàn)象,即生成不相關或錯誤的事實,這在醫(yī)療領域尤為危險。如果模型錯誤地診斷出白內障或癌癥等嚴重疾病,將可能對患者造成嚴重后果。

研究人員強調,雖然LLM模型在眼科評估中展現(xiàn)了令人鼓舞的初步成果,但在實際應用中仍需謹慎對待。未來,應進一步探索如何提高模型的準確性和可靠性,以確保其能夠安全、有效地服務于醫(yī)療領域。

此項研究為LLM模型在醫(yī)療領域的應用提供了新的視角,也提醒我們在追求技術進步的同時,必須關注其潛在的風險和局限性。隨著LLM技術的不斷發(fā)展,我們期待未來能夠看到更多關于其如何在醫(yī)療領域造福社會的報道。

原創(chuàng)文章,作者:若安丶,如若轉載,請注明出處:http://2079x.cn/article/648782.html

若安丶的頭像若安丶管理團隊

相關推薦

發(fā)表回復

登錄后才能評論