五大維度評測OpenAI全新o1模型：代碼編寫、游戲制作等能力“驚艷”，事實(shí)性知識卻“翻了車”

科技探索者 ? 2024年9月14日 13:05:00 ? AI

目前，o1-preview和o1-mini已經(jīng)面向ChatGPT Plus和Team訂閱用戶開放，而Enterprise和Edu用戶將于下周初獲得訪問權(quán)限。OpenAI表示，它計(jì)劃向ChatGPT的所有免費(fèi)用戶提供o1-mini訪問權(quán)限，但尚未確定發(fā)布日期。

傳說中的“草莓”模型今天在沒有任何預(yù)告下忽然上線了！

五大維度評測OpenAI全新o1模型：代碼編寫、游戲制作等能力“驚艷”，事實(shí)性知識卻“翻了車”

OpenAI最新發(fā)布的模型名為o1，是系列推理模型的首批版本，現(xiàn)階段推出的是o1-preview（預(yù)覽版）和o1-mini（迷你版）。

據(jù)OpenAI介紹，在解決問題的能力方面，o1模型比以往任何模型都更接近人類思維，并且能夠“推理”數(shù)學(xué)、編碼和科學(xué)任務(wù)。

為了驗(yàn)證新模型的能力是否正如OpenAI所宣稱的那么強(qiáng)大，《每日經(jīng)濟(jì)新聞》記者從經(jīng)典“草莓測試”、代碼編寫、小游戲制作、數(shù)學(xué)與經(jīng)濟(jì)學(xué)，以及事實(shí)性知識這五大維度對o1-preview模型進(jìn)行了測試。

結(jié)果顯示，o1-preview表現(xiàn)出了超越OpenAI之前發(fā)布的大模型的編程和數(shù)學(xué)推理能力。例如，o1-preview能夠編寫出流暢運(yùn)行的代碼，并且在復(fù)雜環(huán)境中依然能夠自行推理出解決方案。而且，記者在測試過程中也感覺到，o1-preview在人性化方面也有很大的提升，表現(xiàn)出了真人般的思考。不過，新模型也并非毫無缺點(diǎn)，在事實(shí)性知識測試就“翻車”了。

傳說中的“草莓”來了

當(dāng)?shù)貢r(shí)間9月12日，OpenAI發(fā)布了一款名為o1的新模型，這是其計(jì)劃中一系列“推理”模型中的第一個(gè)版本，也是此前業(yè)界盛傳已久的“草莓”模型。

對于OpenAI來說，o1代表著它朝著類人AI的目標(biāo)又邁出了一步。OpenAI認(rèn)為，o1代表著一種全新的能力，這一能力被認(rèn)為如此重要，以至于公司決定從當(dāng)前的GPT-4模型重新開始，完全放棄了“GPT”品牌，從1開始命名。

OpenAI表示，將從當(dāng)前的GPT-4模型重新開始，“將計(jì)數(shù)器重置為 1”，甚至放棄了迄今為止定義了聊天機(jī)器人乃至整個(gè)生成式AI熱潮的“GPT”品牌。o1建立了一個(gè)能夠通過一系列離散步驟，謹(jǐn)慎而合乎邏輯地解決問題的系統(tǒng)，每個(gè)步驟都建立在上一個(gè)步驟的基礎(chǔ)上，類似于人類的推理方式。

OpenAI首席科學(xué)家Jakub Pachocki表示，之前的模型在收到用戶問詢時(shí)會立即開始回答?！岸@個(gè)模型（指的是o1）會慢慢來。它思考問題，并嘗試分解問題，尋找角度，努力提供最佳答案。”這就像大多數(shù)人在幼年時(shí)被父母所要求的那樣，先想好再說話。

OpenAI表示，o1在競賽編程問題（Codeforces）中排名第89個(gè)百分點(diǎn)，在美國數(shù)學(xué)奧林匹克競賽（AIME）預(yù)選賽中位列美國前500名學(xué)生之列，并且在物理、生物和化學(xué)問題的基準(zhǔn)測試（GPQA）中超過了人類博士水平的準(zhǔn)確度。

在OpenAI發(fā)布的研究和博客文章中，o1看起來“推理”能力十分強(qiáng)大，不僅可解決高級數(shù)學(xué)和編碼問題，還能解密復(fù)雜的密碼，以及解答來自專家學(xué)者們關(guān)于遺傳學(xué)、經(jīng)濟(jì)學(xué)和量子物理學(xué)的復(fù)雜問題。大量圖表顯示，在內(nèi)部評估中，o1在編碼、數(shù)學(xué)和各個(gè)科學(xué)領(lǐng)域的問題上已經(jīng)超越了公司最先進(jìn)的語言模型GPT-4o，甚至可能超越了人類。

五大維度實(shí)測：代碼編寫、游戲制作等能力“驚艷”，但“栽”在了事實(shí)性知識測試

為了深入了解o1模型的強(qiáng)大能力，《每日經(jīng)濟(jì)新聞》記者從經(jīng)典草莓測試、代碼編寫、小游戲制作、數(shù)學(xué)與經(jīng)濟(jì)學(xué)，以及事實(shí)性知識這五大維度對o1-preview模型進(jìn)行了測試。

1）草莓測試

首先，記者用之前幾乎所有大模型都“翻車”的一道簡單題目進(jìn)行了測試，即“單詞strawberry里面到底有幾個(gè)r”。從生成的結(jié)果看，o1-preview還是帶來了一點(diǎn)小驚喜的。

2）代碼編寫

記者首先向o1-preview詢問了一個(gè)在線編程平臺leetcode里最有名的簡單算法題：Two Sum（兩數(shù)之和）問題。o1給出了很詳盡的推理過程和答案。

隨后記者故意要求優(yōu)化答案，o1在思考9秒后意識到自己提供的已經(jīng)是最優(yōu)解法了，并就此進(jìn)行了說明，另外還很“貼心”地提供了一個(gè)次優(yōu)解。而在之前記者對其他模型的測試中，這些模型只會道歉然后將答案更改為次優(yōu)解。

3）小游戲制作

在o1模型的演示中，OpenAI演示過“用一句話編寫小游戲”的功能。測試過程中，記者讓o1-preview幫忙介紹好用的代碼工具，并協(xié)助編寫一個(gè)乒乓小游戲。

o1-preview僅用了19秒就給出了一份能夠流暢運(yùn)行的代碼，并且附上了學(xué)習(xí)指南和鼓勵的話語，非常地人性化。

為避免o1-preview作弊，使用的是記憶能力，而不是使用推理能力進(jìn)行回答，記者還請求o1-preview更換了一個(gè)代碼運(yùn)行環(huán)境：jupyter note。這一運(yùn)行環(huán)境是針對數(shù)據(jù)分析進(jìn)行特化的python環(huán)境，開發(fā)人員基本不會使用此環(huán)境開發(fā)小游戲。

經(jīng)過思考后，o1依然給出了一個(gè)可以運(yùn)行的代碼。不過，相較于之前的代碼，這份答案有著不少的bug，但這也從側(cè)面說明這確實(shí)是思考出來的答案，而不是訓(xùn)練過程中加入的標(biāo)準(zhǔn)答案。

為進(jìn)一步驗(yàn)證o1-preview的創(chuàng)新推理能力，記者隨后又要求模型在這個(gè)小游戲的基礎(chǔ)上開發(fā)一個(gè)更復(fù)雜有趣的小游戲。

這下，o1的表現(xiàn)真的有點(diǎn)驚喜。根據(jù)乒乓游戲的碰撞機(jī)制，該模型自行迭代出了一個(gè)向上登高的跳躍游戲。一般其他大模型需要用戶把需求描述清楚才會輸出一個(gè)比較好的答案，但記者在這次測試中沒有進(jìn)行任何的額外提示，o1就輸出了一個(gè)能流暢運(yùn)行，并且在記者眼中看來也足夠有趣的小游戲。

4）科學(xué)類測試

在科學(xué)類測試方面，記者重點(diǎn)測試了o1-preview在數(shù)學(xué)和經(jīng)濟(jì)學(xué)上的表現(xiàn)。

首先，記者拋出的是一個(gè)數(shù)學(xué)推理問題，向o1-preview詢問解決歐拉方程有限時(shí)間爆破的可能方法（這是著名華裔數(shù)學(xué)家、菲爾茲獎得主陶哲軒教授本周才發(fā)表的討論文章）。

o1雖然沒有給出明確解法，但卻提供了一個(gè)解題思路，這一思路和陶哲軒教授文章部分吻合（雖然很少）。

經(jīng)濟(jì)學(xué)方向上，記者向o1-preview詢問了一個(gè)復(fù)雜的經(jīng)濟(jì)系統(tǒng)問題。從給出的反饋看，基本沒有什么太大的問題，整體邏輯清晰，思考維度也是多樣化的，給出的數(shù)學(xué)公式雖然有一點(diǎn)小差錯(cuò)但是無傷大體。

5）事實(shí)性知識與語言理解

在這一環(huán)節(jié)，記者向o1-preview詢問了明朝第一任皇帝的趣事，但o1就將趣事理解成了歷史上實(shí)際發(fā)生過的事情，將朱元璋的歷史故事整個(gè)敘述了出來。

同時(shí)，記者也將這一問題丟給了GPT-4o模型，作為對比，GPT-4o能很好地理解記者的問題，并講了兩個(gè)流傳很廣的民間小故事。

總體來看，OpenAI宣稱o1模型能接近人類水平在某些方面上看起來并不是虛話。

最讓記者驚喜的是，OpenAI將模型思考的過程用文字展示給了用戶，文字思考過程中，大模型大量使用了“我正在”“我認(rèn)為”“我打算”等話語，感覺更加擬人化，就像一個(gè)真人在用戶面前闡述自己的思考邏輯一般。

但這也并不意味著o1模型就是完美的。OpenAI也承認(rèn)，在設(shè)計(jì)、寫作、編輯文字等方面上，o1遠(yuǎn)不如GPT-4o。o1也沒有瀏覽網(wǎng)頁或處理文件和圖像的能力。

而最讓記者感到頭疼的是，即使是一個(gè)很簡單的請求，比如說將輸出結(jié)果轉(zhuǎn)換為中文，o1都會消耗十幾秒鐘的時(shí)間來思考，而GPT4o就會很快處理好這一請求。

就算在OpenAI的優(yōu)勢領(lǐng)域中，o1模型也會突然出現(xiàn)性能下降，模型輸出懶惰的情況。已離職的OpenAI創(chuàng)始人Karpathy就吐槽道：“它一直拒絕為我解決黎曼假說。模型懶惰仍然是一個(gè)主要問題。”

OpenAI表示，公司會在之后的更新中解決這些問題，畢竟現(xiàn)在這只是推理模型的早期預(yù)覽。

原創(chuàng)文章，作者：科技探索者，如若轉(zhuǎn)載，請注明出處：http://2079x.cn/article/680603.html

科技探索者管理團(tuán)隊(duì)

0 0

商業(yè)

?馬斯克旗下xAI新一輪融資或?qū)_刺1200億美元估值逼近OpenAI

據(jù)知情人士今日透露，特斯拉CEO埃隆·馬斯克創(chuàng)立的AI公司xAI正啟動新一輪融資談判，潛在xAI估值或達(dá)1200億美元（約合8687億元人民幣），成為全球估值第二高的人工智能企業(yè)，…

商業(yè)頭條
5天前
AI

ChatGPT訂閱模式或迎重大變革：周費(fèi)制與終身會員浮出水面

據(jù)報(bào)道，人工智能研究機(jī)構(gòu)OpenAI近日被曝正在醞釀訂閱服務(wù)升級。昨日，科技媒體披露其開發(fā)代碼中隱藏著突破性付費(fèi)選項(xiàng)。據(jù)社交平臺用戶@M1逆向工程發(fā)現(xiàn)，新版ChatGPT客戶端內(nèi)嵌…

AI
5天前
新聞

OpenAI被曝大幅削減微軟分成比例 2030年前或砍半

據(jù)外媒The Information報(bào)道，OpenAI在最新資本重組計(jì)劃中提出，擬削減對微軟的收入分成比例。根據(jù)公司向投資者披露的文件，到2030年底，給予微軟的分成比例將從現(xiàn)行2…

net
5天前
AI

OpenAI啟動”星際之門”全球擴(kuò)張：5000億美元AI數(shù)據(jù)中心劍指法德英

據(jù)?英國金融時(shí)報(bào)披露，OpenAI正加速推進(jìn)其估值5000億美元的”星際之門”（Stargate）人工智能數(shù)據(jù)中心項(xiàng)目全球化布局。該公司全球事務(wù)副總裁Chr…

AI
6天前
商業(yè)

OpenAI豪擲30億美元收購編程巨頭Windsurf AI代碼助手賽道風(fēng)云再起

據(jù)彭博社最新報(bào)道，人工智能領(lǐng)軍企業(yè)OpenAI已就收購AI編程助手開發(fā)商Windsurf（注冊名Exafunction Inc.）達(dá)成初步協(xié)議，交易估值高達(dá)30億美元（約合217.…

商業(yè)頭條
2025年5月6日
AI

?ChatGPT搜索上線網(wǎng)購功能：智能推薦+無廣告模式重新定義購物體驗(yàn)

今日，OpenAI在X平臺宣布，ChatGPT搜索功能正式上線網(wǎng)購服務(wù)，覆蓋時(shí)尚、美妝、家居用品及電子產(chǎn)品等類目。用戶可通過自然提問獲取商品推薦，系統(tǒng)將同步展示產(chǎn)品詳情、用戶評價(jià)及…

AI
2025年4月29日
新聞

ChatGPT殺入電商賽道：一鍵直達(dá)商家頁面，免登錄也能買買買

OpenAI于4月29日宣布，即日起ChatGPT殺入電商賽道，所有用戶均可通過ChatGPT直接購買商品，無需注冊或登錄賬戶。用戶點(diǎn)擊對話界面新增的“購物按鈕”后，系統(tǒng)將基于歷史…

檸萌
2025年4月29日
AI

OpenAI開放免費(fèi)體驗(yàn)！Deep Research輕量版AI搜索功能上線

人工智能公司OpenAI近日宣布，面向全體用戶推出輕量版Deep Research AI搜索功能。新功能基于o4-mini模型開發(fā)，免費(fèi)用戶每月可獲得5次使用機(jī)會，付費(fèi)用戶將根據(jù)訂…

AI
2025年4月27日
新聞

?傳媒巨頭Ziff Davis起訴OpenAI：指控非法抓取數(shù)百萬文章訓(xùn)練AI

據(jù)外媒報(bào)道稱，美國數(shù)字媒體集團(tuán)Ziff Davis正式向紐約聯(lián)邦法院提起訴訟，指控人工智能公司OpenAI在未經(jīng)授權(quán)的情況下，“系統(tǒng)性復(fù)制”其旗下包括CNET、PCMag等45個(gè)媒…

小丸子
2025年4月25日
AI

OpenAI全面開放Deep Research：免費(fèi)用戶首獲輕量版

今日，OpenAI宣布對其核心產(chǎn)品Deep Research進(jìn)行重大升級。即日起，所有免費(fèi)用戶均可使用輕量版服務(wù)，Plus、Team和Pro用戶則獲得更高頻次調(diào)用權(quán)限，而企業(yè)與教育…

AI
2025年4月25日
AI

OpenAI計(jì)劃開源首款A(yù)I模型推理性能對標(biāo)Meta、谷歌

近日，OpenAI正式確認(rèn)將推出自2019年GPT-2以來的首個(gè)開源語言模型。據(jù)知情人士透露，該模型由研究副總裁Aidan Clark主導(dǎo)開發(fā)，計(jì)劃于今年夏季初發(fā)布，其核心目標(biāo)是在…

AI
2025年4月24日
產(chǎn)品

OpenAI或?qū)⑹召徆雀鐲hrome 反壟斷案庭審曝重磅合作內(nèi)幕?

4月23日，美國司法部針對谷歌的反壟斷案庭審曝出驚人消息：OpenAI高管出庭作證稱，該公司曾試圖與谷歌達(dá)成搜索技術(shù)合作但遭拒絕，而司法部正推動強(qiáng)制拆分谷歌Chrome瀏覽器及數(shù)字…

科技探索者
2025年4月23日
AI

OpenAI o3及o4-mini模型被曝植入“隱形水印”：AI生成文本暗藏特殊符號

AI初創(chuàng)公司Rumi近日發(fā)布報(bào)告稱，OpenAI最新發(fā)布的o3及o4-mini模型中，其生成的文本內(nèi)嵌入了特殊Unicode字符“窄不換行空格”（NNBSP，U+202F），疑似用…

AI
2025年4月22日
AI

OpenAI o3數(shù)學(xué)大模型遭”實(shí)測打假”：測試成績被指虛高

近日，人工智能領(lǐng)域再現(xiàn)基準(zhǔn)測試爭議。OpenAI最新發(fā)布的o3大模型因第一方與第三方測試結(jié)果懸殊，陷入”成績注水”質(zhì)疑。第三方機(jī)構(gòu)實(shí)測顯示，該模型在權(quán)威數(shù)學(xué)…

AI
2025年4月21日
AI

?OpenAI推出“全能助手”o3和o4-mini：自動調(diào)用工具解題，編程競賽進(jìn)全球前200

今日，OpenAI正式發(fā)布新一代多模態(tài)推理模型o3和o4-mini，首次實(shí)現(xiàn)智能調(diào)用并組合ChatGPT全功能工具鏈，包括網(wǎng)頁搜索、Python數(shù)據(jù)分析、圖像深度推理及文生圖等能力…

聆聽
2025年4月17日
AI

?OpenAI豪擲30億美元收購編程工具或創(chuàng)公司最大收購紀(jì)錄

據(jù)彭博社援引知情人士消息，OpenAI正就以約30億美元（約合219.67億元人民幣）收購人工智能編程工具Windsurf（原名Codeium）進(jìn)行談判。若交易達(dá)成，這將成為Ope…

AI
2025年4月17日
AI

ChatGPT推出新圖像庫功能，助你管理人工智能生成的圖像

今日，OpenAI公司在X（以前的Twitter）上宣布，ChatGPT現(xiàn)在有了一個(gè)全新的圖像庫功能——一個(gè)簡單但功能強(qiáng)大的附加功能，旨在幫助用戶管理、瀏覽和重新訪問他們的人工智能…

AI
2025年4月16日
AI

?OpenAI停用GPT-4.5 API，開發(fā)者需7月前切換至GPT-4.1

OpenAI今日宣布，將逐步停止通過API接口提供其2月剛發(fā)布的旗艦?zāi)Ｐ虶PT-4.5。開發(fā)者可繼續(xù)調(diào)用該模型至7月14日，此后需轉(zhuǎn)用今日同步推出的替代品GPT-4.1。公司表示，…

AI
2025年4月15日
新聞

ChatGPT全球下載量破紀(jì)錄 OpenAI官宣開源新戰(zhàn)略

在TED 2025全球大會上，OpenAI CEO薩姆·奧爾特曼首次正面回應(yīng)中國AI企業(yè)競爭，稱“DeepSeek的崛起并未影響GPT產(chǎn)品線增長”。其現(xiàn)場披露重大戰(zhàn)略調(diào)整：公司將在…

若安丶
2025年4月14日
商業(yè)

OpenAI前首席科學(xué)家創(chuàng)企SSI首輪融資20億美元谷歌英偉達(dá)聯(lián)手押注

由OpenAI前首席科學(xué)家伊利亞·蘇茨克沃創(chuàng)立的AI公司Safe Superintelligence（SSI）近日完成首輪融資，以20億美元（約合2334.5億元人民幣）創(chuàng)下AI初…

李小白
2025年4月13日