OpenAI推出SimpleQA基準，專治AI模型“胡言亂語”

AI ? 2024年10月31日 15:30:00 ? 新聞

近日，OpenAI宣布推出一個新的基準測試工具SimpleQA，旨在衡量語言模型在回答簡短事實尋求問題時的準確性。這一舉措針對的是AI領域中的一個長期難題：如何訓練模型生成事實正確的回答。

當前的語言模型在生成回答時，有時會產生錯誤或未經證實的答案，這種現(xiàn)象被稱為“幻覺”。為了提高模型的可靠性，OpenAI設計了SimpleQA這一基準測試。SimpleQA的數(shù)據(jù)集具備高正確性、多樣性和前沿挑戰(zhàn)性等特點。問題的參考答案由兩名獨立的AI訓練師驗證，以確保評分的公正性。同時，SimpleQA涵蓋廣泛主題，從科學技術到電視節(jié)目與電子游戲等應有盡有，以測試模型在不同領域的知識掌握情況。

與早期的基準測試相比，SimpleQA更具挑戰(zhàn)性。例如，在針對前沿模型GPT-4o的測試中，其得分不足40%。此外，SimpleQA的問題與答案簡潔明了，使操作快速高效，并可通過OpenAI API等進行快速評分。包含4326道問題的SimpleQA在評估中具有較低的方差，能夠提供穩(wěn)定的測試結果。

OpenAI表示，SimpleQA是一個簡單但具有挑戰(zhàn)性的基準，用于評估前沿模型的事實準確性。然而，SimpleQA的主要限制在于其范圍有限，只在短查詢的受限設置中測量事實準確性。因此，模型在短回答中表現(xiàn)出的事實性是否與其在長篇、多事實內容中的表現(xiàn)相關，仍是一個懸而未決的研究課題。

OpenAI希望通過開源SimpleQA，進一步推動AI研究的發(fā)展，使模型更加可信并富有可靠性。這一舉措有望為AI領域的發(fā)展注入新的動力，促進更加準確、可靠的AI模型的誕生。

原創(chuàng)文章，作者：AI，如若轉載，請注明出處：http://2079x.cn/article/690044.html

OpenAI SimpleQA

AI認證作者

0 0

AI

OpenAI 升級 ChatGPT AI 聊天機器人，GPT-4.1 編程專家模型登場

OpenAI在X平臺上發(fā)布ChatGPT AI聊天機器人中引入GPT-4.1模型，特別擅長處理編程任務，提高效率，性能與最新版GPT-4o相當，更全面提升。

李森
2小時前
AI

ChatGPT Deep Research如何重塑開發(fā)者工作流？一文幫你梳理清晰

在軟件開發(fā)領域，理解復雜代碼庫一直是一項極具挑戰(zhàn)性的任務。傳統(tǒng)方式下，開發(fā)者需要耗費數(shù)天甚至數(shù)周時間逐行閱讀代碼、梳理架構邏輯。然而，OpenAI最新推出的ChatGPT Deep…

潮玩君
4小時前
商業(yè)

?馬斯克旗下xAI新一輪融資或將沖刺1200億美元估值逼近OpenAI

據(jù)知情人士今日透露，特斯拉CEO埃隆·馬斯克創(chuàng)立的AI公司xAI正啟動新一輪融資談判，潛在xAI估值或達1200億美元（約合8687億元人民幣），成為全球估值第二高的人工智能企業(yè)，…

商業(yè)頭條
6天前
AI

ChatGPT訂閱模式或迎重大變革：周費制與終身會員浮出水面

據(jù)報道，人工智能研究機構OpenAI近日被曝正在醞釀訂閱服務升級。昨日，科技媒體披露其開發(fā)代碼中隱藏著突破性付費選項。據(jù)社交平臺用戶@M1逆向工程發(fā)現(xiàn)，新版ChatGPT客戶端內嵌…

AI
6天前
新聞

OpenAI被曝大幅削減微軟分成比例 2030年前或砍半

據(jù)外媒The Information報道，OpenAI在最新資本重組計劃中提出，擬削減對微軟的收入分成比例。根據(jù)公司向投資者披露的文件，到2030年底，給予微軟的分成比例將從現(xiàn)行2…

net
6天前
AI

OpenAI啟動”星際之門”全球擴張：5000億美元AI數(shù)據(jù)中心劍指法德英

據(jù)?英國金融時報披露，OpenAI正加速推進其估值5000億美元的”星際之門”（Stargate）人工智能數(shù)據(jù)中心項目全球化布局。該公司全球事務副總裁Chr…

AI
2025年5月8日
商業(yè)

OpenAI豪擲30億美元收購編程巨頭Windsurf AI代碼助手賽道風云再起

據(jù)彭博社最新報道，人工智能領軍企業(yè)OpenAI已就收購AI編程助手開發(fā)商Windsurf（注冊名Exafunction Inc.）達成初步協(xié)議，交易估值高達30億美元（約合217.…

商業(yè)頭條
2025年5月6日
AI

?ChatGPT搜索上線網購功能：智能推薦+無廣告模式重新定義購物體驗

今日，OpenAI在X平臺宣布，ChatGPT搜索功能正式上線網購服務，覆蓋時尚、美妝、家居用品及電子產品等類目。用戶可通過自然提問獲取商品推薦，系統(tǒng)將同步展示產品詳情、用戶評價及…

AI
2025年4月29日
新聞

ChatGPT殺入電商賽道：一鍵直達商家頁面，免登錄也能買買買

OpenAI于4月29日宣布，即日起ChatGPT殺入電商賽道，所有用戶均可通過ChatGPT直接購買商品，無需注冊或登錄賬戶。用戶點擊對話界面新增的“購物按鈕”后，系統(tǒng)將基于歷史…

檸萌
2025年4月29日
AI

OpenAI開放免費體驗！Deep Research輕量版AI搜索功能上線

人工智能公司OpenAI近日宣布，面向全體用戶推出輕量版Deep Research AI搜索功能。新功能基于o4-mini模型開發(fā)，免費用戶每月可獲得5次使用機會，付費用戶將根據(jù)訂…

AI
2025年4月27日
新聞

?傳媒巨頭Ziff Davis起訴OpenAI：指控非法抓取數(shù)百萬文章訓練AI

據(jù)外媒報道稱，美國數(shù)字媒體集團Ziff Davis正式向紐約聯(lián)邦法院提起訴訟，指控人工智能公司OpenAI在未經授權的情況下，“系統(tǒng)性復制”其旗下包括CNET、PCMag等45個媒…

小丸子
2025年4月25日
AI

OpenAI全面開放Deep Research：免費用戶首獲輕量版

今日，OpenAI宣布對其核心產品Deep Research進行重大升級。即日起，所有免費用戶均可使用輕量版服務，Plus、Team和Pro用戶則獲得更高頻次調用權限，而企業(yè)與教育…

AI
2025年4月25日
AI

OpenAI計劃開源首款AI模型推理性能對標Meta、谷歌

近日，OpenAI正式確認將推出自2019年GPT-2以來的首個開源語言模型。據(jù)知情人士透露，該模型由研究副總裁Aidan Clark主導開發(fā)，計劃于今年夏季初發(fā)布，其核心目標是在…

AI
2025年4月24日
產品

OpenAI或將收購谷歌Chrome 反壟斷案庭審曝重磅合作內幕?

4月23日，美國司法部針對谷歌的反壟斷案庭審曝出驚人消息：OpenAI高管出庭作證稱，該公司曾試圖與谷歌達成搜索技術合作但遭拒絕，而司法部正推動強制拆分谷歌Chrome瀏覽器及數(shù)字…

科技探索者
2025年4月23日
AI

OpenAI o3及o4-mini模型被曝植入“隱形水印”：AI生成文本暗藏特殊符號

AI初創(chuàng)公司Rumi近日發(fā)布報告稱，OpenAI最新發(fā)布的o3及o4-mini模型中，其生成的文本內嵌入了特殊Unicode字符“窄不換行空格”（NNBSP，U+202F），疑似用…

AI
2025年4月22日
AI

OpenAI o3數(shù)學大模型遭”實測打假”：測試成績被指虛高

近日，人工智能領域再現(xiàn)基準測試爭議。OpenAI最新發(fā)布的o3大模型因第一方與第三方測試結果懸殊，陷入”成績注水”質疑。第三方機構實測顯示，該模型在權威數(shù)學…

AI
2025年4月21日
AI

?OpenAI推出“全能助手”o3和o4-mini：自動調用工具解題，編程競賽進全球前200

今日，OpenAI正式發(fā)布新一代多模態(tài)推理模型o3和o4-mini，首次實現(xiàn)智能調用并組合ChatGPT全功能工具鏈，包括網頁搜索、Python數(shù)據(jù)分析、圖像深度推理及文生圖等能力…

聆聽
2025年4月17日
AI

?OpenAI豪擲30億美元收購編程工具或創(chuàng)公司最大收購紀錄

據(jù)彭博社援引知情人士消息，OpenAI正就以約30億美元（約合219.67億元人民幣）收購人工智能編程工具Windsurf（原名Codeium）進行談判。若交易達成，這將成為Ope…

AI
2025年4月17日
AI

ChatGPT推出新圖像庫功能，助你管理人工智能生成的圖像

今日，OpenAI公司在X（以前的Twitter）上宣布，ChatGPT現(xiàn)在有了一個全新的圖像庫功能——一個簡單但功能強大的附加功能，旨在幫助用戶管理、瀏覽和重新訪問他們的人工智能…

AI
2025年4月16日
AI

?OpenAI停用GPT-4.5 API，開發(fā)者需7月前切換至GPT-4.1

OpenAI今日宣布，將逐步停止通過API接口提供其2月剛發(fā)布的旗艦模型GPT-4.5。開發(fā)者可繼續(xù)調用該模型至7月14日，此后需轉用今日同步推出的替代品GPT-4.1。公司表示，…

AI
2025年4月15日