近期,一項(xiàng)由美國(guó)北卡羅萊納大學(xué)教堂山分校和艾倫 AI 研究所共同進(jìn)行的研究顯示,OpenAI 的最新聊天機(jī)器人 GPT-4o 在道德解釋和建議方面展現(xiàn)出超越人類專家的能力。這一發(fā)現(xiàn)引發(fā)了關(guān)于人工智能(AI)在道德推理領(lǐng)域應(yīng)用的廣泛討論。
在這項(xiàng)研究中,研究人員進(jìn)行了兩項(xiàng)對(duì)比實(shí)驗(yàn),旨在探討 GPT 模型與人類道德推理能力的差異。在第一項(xiàng)研究中,501 名美國(guó)成年人被要求對(duì)比 GPT-3.5-turbo 模型的道德解釋與其他人類參與者的解釋。結(jié)果顯示,GPT 的解釋被認(rèn)為更符合道德、更值得信賴、更周到,且評(píng)估者認(rèn)為 AI 的評(píng)估比其他人更可靠。盡管差異較小,但這一發(fā)現(xiàn)表明 AI 在道德推理方面能夠匹配甚至超越人類水平。
在第二項(xiàng)研究中,研究人員將 GPT-4o 模型生成的建議與《紐約時(shí)報(bào)》“倫理學(xué)家”專欄中著名倫理學(xué)家 Kwame Anthony Appiah 的建議進(jìn)行了比較。在針對(duì) 50 個(gè)“倫理困境”的建議質(zhì)量評(píng)分中,GPT-4o 在“幾乎每個(gè)方面”都獲得了比人類專家更高的評(píng)分。參與者普遍認(rèn)為 AI 生成的建議在道德上更正確、更值得信賴、更周到、更準(zhǔn)確。只有在感知細(xì)微差別方面,人工智能和人類專家之間沒有顯著差異。
研究人員認(rèn)為,這些結(jié)果表明 GPT-4o 已經(jīng)通過了所謂的“比較道德圖靈測(cè)試”(cMTT)。進(jìn)一步分析顯示,GPT-4o 在提供建議時(shí)使用的道德和積極語(yǔ)言比人類專家更多,這可能是導(dǎo)致其建議評(píng)分更高的原因之一。然而,研究人員也指出,這并非唯一因素,未來(lái)還需要進(jìn)行更多研究以深入探索 AI 在道德推理領(lǐng)域的潛力。
值得注意的是,這項(xiàng)研究?jī)H針對(duì)美國(guó)參與者進(jìn)行,因此后續(xù)研究還需要探討不同文化背景下人們對(duì) AI 生成的道德推理的看法。盡管如此,這一發(fā)現(xiàn)仍然為 AI 在道德決策支持領(lǐng)域的應(yīng)用提供了有力支持,并可能引發(fā)關(guān)于 AI 道德責(zé)任和監(jiān)管的進(jìn)一步討論。
隨著 AI 技術(shù)的不斷進(jìn)步,其在道德推理領(lǐng)域的應(yīng)用將越來(lái)越廣泛。從醫(yī)療診斷到自動(dòng)駕駛汽車,再到社交媒體內(nèi)容審核,AI 的道德決策能力將直接影響到人類社會(huì)的各個(gè)方面。因此,我們需要更加關(guān)注 AI 的道德問題,并制定相應(yīng)的政策和規(guī)范以確保 AI 的安全和可靠。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請(qǐng)注明出處:http://2079x.cn/article/662942.html