近日,OpenAI宣布推出一個新的基準測試工具SimpleQA,旨在衡量語言模型在回答簡短事實尋求問題時的準確性。這一舉措針對的是AI領域中的一個長期難題:如何訓練模型生成事實正確的回答。
當前的語言模型在生成回答時,有時會產(chǎn)生錯誤或未經(jīng)證實的答案,這種現(xiàn)象被稱為“幻覺”。為了提高模型的可靠性,OpenAI設計了SimpleQA這一基準測試。SimpleQA的數(shù)據(jù)集具備高正確性、多樣性和前沿挑戰(zhàn)性等特點。問題的參考答案由兩名獨立的AI訓練師驗證,以確保評分的公正性。同時,SimpleQA涵蓋廣泛主題,從科學技術到電視節(jié)目與電子游戲等應有盡有,以測試模型在不同領域的知識掌握情況。
與早期的基準測試相比,SimpleQA更具挑戰(zhàn)性。例如,在針對前沿模型GPT-4o的測試中,其得分不足40%。此外,SimpleQA的問題與答案簡潔明了,使操作快速高效,并可通過OpenAI API等進行快速評分。包含4326道問題的SimpleQA在評估中具有較低的方差,能夠提供穩(wěn)定的測試結(jié)果。
OpenAI表示,SimpleQA是一個簡單但具有挑戰(zhàn)性的基準,用于評估前沿模型的事實準確性。然而,SimpleQA的主要限制在于其范圍有限,只在短查詢的受限設置中測量事實準確性。因此,模型在短回答中表現(xiàn)出的事實性是否與其在長篇、多事實內(nèi)容中的表現(xiàn)相關,仍是一個懸而未決的研究課題。
OpenAI希望通過開源SimpleQA,進一步推動AI研究的發(fā)展,使模型更加可信并富有可靠性。這一舉措有望為AI領域的發(fā)展注入新的動力,促進更加準確、可靠的AI模型的誕生。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/690044.html