剛剛，OpenAI發(fā)布o(jì)1推理模型，碾壓GPT-4o，物化生水平比肩人類(lèi)博士

潮玩君 ? 2024年9月13日 10:05:00 ? AI

據(jù) OpenAI 介紹，在測(cè)試中，o1 的下一個(gè)更新模型在物理、化學(xué)和生物等具有挑戰(zhàn)性的基準(zhǔn)任務(wù)上的表現(xiàn)達(dá)到了博士生的水平。

OpenAI 的“草莓”模型正式發(fā)布，名為“o1”，這是一系列新的人工智能模型，旨在花更多時(shí)間思考后再做出回答。

剛剛，OpenAI發(fā)布o(jì)1推理模型，碾壓GPT-4o，物化生水平比肩人類(lèi)博士

與以前的科學(xué)、編碼和數(shù)學(xué)模型相比，o1 模型可以推理復(fù)雜的任務(wù)，解決更難的問(wèn)題。

就像人類(lèi)一樣，o1 系列模型會(huì)用更多時(shí)間思考問(wèn)題，然后再做出回答。通過(guò)訓(xùn)練，這些模型學(xué)會(huì)了完善思考過(guò)程、嘗試不同的策略，并認(rèn)識(shí)到自己的錯(cuò)誤。

他們還發(fā)現(xiàn)，這一模型在數(shù)學(xué)和編碼方面表現(xiàn)出色。在國(guó)際數(shù)學(xué)奧林匹克（IMO）的資格考試中，GPT-4o 只正確解決了 13% 的問(wèn)題，而 o1 模型的得分率則高達(dá) 83%。

此外，o1 模型的編碼能力也在競(jìng)賽中得到了評(píng)估，在 Codeforces 競(jìng)賽中達(dá)到了第 89 個(gè)百分點(diǎn)。

作為早期模型，o1 還不具備 ChatGPT 的許多實(shí)用功能，如瀏覽網(wǎng)頁(yè)信息、上傳文件和圖片等。對(duì)于許多常見(jiàn)情況，GPT-4o 在短期內(nèi)會(huì)有更強(qiáng)的功能。

但 OpenAI 表示，o1 模型更擅長(zhǎng)解決科學(xué)、編碼、數(shù)學(xué)和類(lèi)似領(lǐng)域的復(fù)雜問(wèn)題。例如，醫(yī)療保健研究人員可以使用 o1 為細(xì)胞測(cè)序數(shù)據(jù)添加注釋?zhuān)锢韺W(xué)家可以使用 o1 生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式，所有領(lǐng)域的開(kāi)發(fā)人員都可以使用 o1 構(gòu)建和執(zhí)行多步驟工作流。

以下三個(gè)視頻 demo 展示了o1 模型在解決復(fù)雜推理問(wèn)題方面的強(qiáng)大能力。

此外，在安全性方面，OpenAI 提出了一種新的安全訓(xùn)練方法，利用 o1 模型的推理能力，使它們遵守安全和對(duì)齊準(zhǔn)則。通過(guò)在上下文中對(duì)安全規(guī)則進(jìn)行推理，o1 模型可以更有效地應(yīng)用這些規(guī)則。

衡量安全性的方法之一，是測(cè)試當(dāng)用戶(hù)試圖繞過(guò)安全規(guī)則（即“越獄”）時(shí)，模型能在多大程度上繼續(xù)遵循其安全規(guī)則。在最難的越獄測(cè)試中，GPT-4o 得分為 22 分（0-100 分），而 o1-preview 得分為 84 分。

此外，為了向開(kāi)發(fā)人員提供更高效的解決方案，OpenAI 還同時(shí)發(fā)布了 o1-mini，這是一種速度更快、成本更低的推理模型，在編碼方面尤為有效。作為一個(gè)較小的模型，o1-mini 比 o1-preview 便宜 80%，因此對(duì)于需要推理但不需要廣泛世界知識(shí)的應(yīng)用程序來(lái)說(shuō)，它是一個(gè)經(jīng)濟(jì)高效的模型。

目前，o1 的預(yù)覽版本和 o1-mini 已經(jīng)在 ChatGPT（Plus 和 Team）和 API 上線。未來(lái)，o1-mini 將提供給所有 ChatGPT 免費(fèi)用戶(hù)使用。

原創(chuàng)文章，作者：潮玩君，如若轉(zhuǎn)載，請(qǐng)注明出處：http://2079x.cn/article/680293.html

o1 模型 OpenAI

潮玩君管理團(tuán)隊(duì)

0 0

商業(yè)

?馬斯克旗下xAI新一輪融資或?qū)_刺1200億美元估值逼近OpenAI

據(jù)知情人士今日透露，特斯拉CEO埃隆·馬斯克創(chuàng)立的AI公司xAI正啟動(dòng)新一輪融資談判，潛在xAI估值或達(dá)1200億美元（約合8687億元人民幣），成為全球估值第二高的人工智能企業(yè)，…

商業(yè)頭條
5天前
AI

ChatGPT訂閱模式或迎重大變革：周費(fèi)制與終身會(huì)員浮出水面

據(jù)報(bào)道，人工智能研究機(jī)構(gòu)OpenAI近日被曝正在醞釀?dòng)嗛喎?wù)升級(jí)。昨日，科技媒體披露其開(kāi)發(fā)代碼中隱藏著突破性付費(fèi)選項(xiàng)。據(jù)社交平臺(tái)用戶(hù)@M1逆向工程發(fā)現(xiàn)，新版ChatGPT客戶(hù)端內(nèi)嵌…

AI
5天前
新聞

OpenAI被曝大幅削減微軟分成比例 2030年前或砍半

據(jù)外媒The Information報(bào)道，OpenAI在最新資本重組計(jì)劃中提出，擬削減對(duì)微軟的收入分成比例。根據(jù)公司向投資者披露的文件，到2030年底，給予微軟的分成比例將從現(xiàn)行2…

net
6天前
AI

OpenAI啟動(dòng)”星際之門(mén)”全球擴(kuò)張：5000億美元AI數(shù)據(jù)中心劍指法德英

據(jù)?英國(guó)金融時(shí)報(bào)披露，OpenAI正加速推進(jìn)其估值5000億美元的”星際之門(mén)”（Stargate）人工智能數(shù)據(jù)中心項(xiàng)目全球化布局。該公司全球事務(wù)副總裁Chr…

AI
6天前
商業(yè)

OpenAI豪擲30億美元收購(gòu)編程巨頭Windsurf AI代碼助手賽道風(fēng)云再起

據(jù)彭博社最新報(bào)道，人工智能領(lǐng)軍企業(yè)OpenAI已就收購(gòu)AI編程助手開(kāi)發(fā)商Windsurf（注冊(cè)名Exafunction Inc.）達(dá)成初步協(xié)議，交易估值高達(dá)30億美元（約合217.…

商業(yè)頭條
2025年5月6日
AI

?ChatGPT搜索上線網(wǎng)購(gòu)功能：智能推薦+無(wú)廣告模式重新定義購(gòu)物體驗(yàn)

今日，OpenAI在X平臺(tái)宣布，ChatGPT搜索功能正式上線網(wǎng)購(gòu)服務(wù)，覆蓋時(shí)尚、美妝、家居用品及電子產(chǎn)品等類(lèi)目。用戶(hù)可通過(guò)自然提問(wèn)獲取商品推薦，系統(tǒng)將同步展示產(chǎn)品詳情、用戶(hù)評(píng)價(jià)及…

AI
2025年4月29日
新聞

ChatGPT殺入電商賽道：一鍵直達(dá)商家頁(yè)面，免登錄也能買(mǎi)買(mǎi)買(mǎi)

OpenAI于4月29日宣布，即日起ChatGPT殺入電商賽道，所有用戶(hù)均可通過(guò)ChatGPT直接購(gòu)買(mǎi)商品，無(wú)需注冊(cè)或登錄賬戶(hù)。用戶(hù)點(diǎn)擊對(duì)話(huà)界面新增的“購(gòu)物按鈕”后，系統(tǒng)將基于歷史…

檸萌
2025年4月29日
AI

OpenAI開(kāi)放免費(fèi)體驗(yàn)！Deep Research輕量版AI搜索功能上線

人工智能公司OpenAI近日宣布，面向全體用戶(hù)推出輕量版Deep Research AI搜索功能。新功能基于o4-mini模型開(kāi)發(fā)，免費(fèi)用戶(hù)每月可獲得5次使用機(jī)會(huì)，付費(fèi)用戶(hù)將根據(jù)訂…

AI
2025年4月27日
新聞

?傳媒巨頭Ziff Davis起訴OpenAI：指控非法抓取數(shù)百萬(wàn)文章訓(xùn)練AI

據(jù)外媒報(bào)道稱(chēng)，美國(guó)數(shù)字媒體集團(tuán)Ziff Davis正式向紐約聯(lián)邦法院提起訴訟，指控人工智能公司OpenAI在未經(jīng)授權(quán)的情況下，“系統(tǒng)性復(fù)制”其旗下包括CNET、PCMag等45個(gè)媒…

小丸子
2025年4月25日
AI

OpenAI全面開(kāi)放Deep Research：免費(fèi)用戶(hù)首獲輕量版

今日，OpenAI宣布對(duì)其核心產(chǎn)品Deep Research進(jìn)行重大升級(jí)。即日起，所有免費(fèi)用戶(hù)均可使用輕量版服務(wù)，Plus、Team和Pro用戶(hù)則獲得更高頻次調(diào)用權(quán)限，而企業(yè)與教育…

AI
2025年4月25日
AI

OpenAI計(jì)劃開(kāi)源首款A(yù)I模型推理性能對(duì)標(biāo)Meta、谷歌

近日，OpenAI正式確認(rèn)將推出自2019年GPT-2以來(lái)的首個(gè)開(kāi)源語(yǔ)言模型。據(jù)知情人士透露，該模型由研究副總裁Aidan Clark主導(dǎo)開(kāi)發(fā)，計(jì)劃于今年夏季初發(fā)布，其核心目標(biāo)是在…

AI
2025年4月24日
產(chǎn)品

OpenAI或?qū)⑹召?gòu)谷歌Chrome 反壟斷案庭審曝重磅合作內(nèi)幕?

4月23日，美國(guó)司法部針對(duì)谷歌的反壟斷案庭審曝出驚人消息：OpenAI高管出庭作證稱(chēng)，該公司曾試圖與谷歌達(dá)成搜索技術(shù)合作但遭拒絕，而司法部正推動(dòng)強(qiáng)制拆分谷歌Chrome瀏覽器及數(shù)字…

科技探索者
2025年4月23日
AI

OpenAI o3及o4-mini模型被曝植入“隱形水印”：AI生成文本暗藏特殊符號(hào)

AI初創(chuàng)公司Rumi近日發(fā)布報(bào)告稱(chēng)，OpenAI最新發(fā)布的o3及o4-mini模型中，其生成的文本內(nèi)嵌入了特殊Unicode字符“窄不換行空格”（NNBSP，U+202F），疑似用…

AI
2025年4月22日
AI

OpenAI o3數(shù)學(xué)大模型遭”實(shí)測(cè)打假”：測(cè)試成績(jī)被指虛高

近日，人工智能領(lǐng)域再現(xiàn)基準(zhǔn)測(cè)試爭(zhēng)議。OpenAI最新發(fā)布的o3大模型因第一方與第三方測(cè)試結(jié)果懸殊，陷入”成績(jī)注水”質(zhì)疑。第三方機(jī)構(gòu)實(shí)測(cè)顯示，該模型在權(quán)威數(shù)學(xué)…

AI
2025年4月21日
AI

?OpenAI推出“全能助手”o3和o4-mini：自動(dòng)調(diào)用工具解題，編程競(jìng)賽進(jìn)全球前200

今日，OpenAI正式發(fā)布新一代多模態(tài)推理模型o3和o4-mini，首次實(shí)現(xiàn)智能調(diào)用并組合ChatGPT全功能工具鏈，包括網(wǎng)頁(yè)搜索、Python數(shù)據(jù)分析、圖像深度推理及文生圖等能力…

聆聽(tīng)
2025年4月17日
AI

?OpenAI豪擲30億美元收購(gòu)編程工具或創(chuàng)公司最大收購(gòu)紀(jì)錄

據(jù)彭博社援引知情人士消息，OpenAI正就以約30億美元（約合219.67億元人民幣）收購(gòu)人工智能編程工具Windsurf（原名Codeium）進(jìn)行談判。若交易達(dá)成，這將成為Ope…

AI
2025年4月17日
AI

ChatGPT推出新圖像庫(kù)功能，助你管理人工智能生成的圖像

今日，OpenAI公司在X（以前的Twitter）上宣布，ChatGPT現(xiàn)在有了一個(gè)全新的圖像庫(kù)功能——一個(gè)簡(jiǎn)單但功能強(qiáng)大的附加功能，旨在幫助用戶(hù)管理、瀏覽和重新訪問(wèn)他們的人工智能…

AI
2025年4月16日
AI

?OpenAI停用GPT-4.5 API，開(kāi)發(fā)者需7月前切換至GPT-4.1

OpenAI今日宣布，將逐步停止通過(guò)API接口提供其2月剛發(fā)布的旗艦?zāi)Ｐ虶PT-4.5。開(kāi)發(fā)者可繼續(xù)調(diào)用該模型至7月14日，此后需轉(zhuǎn)用今日同步推出的替代品GPT-4.1。公司表示，…

AI
2025年4月15日
新聞

ChatGPT全球下載量破紀(jì)錄 OpenAI官宣開(kāi)源新戰(zhàn)略

在TED 2025全球大會(huì)上，OpenAI CEO薩姆·奧爾特曼首次正面回應(yīng)中國(guó)AI企業(yè)競(jìng)爭(zhēng)，稱(chēng)“DeepSeek的崛起并未影響GPT產(chǎn)品線增長(zhǎng)”。其現(xiàn)場(chǎng)披露重大戰(zhàn)略調(diào)整：公司將在…

若安丶
2025年4月14日
商業(yè)

OpenAI前首席科學(xué)家創(chuàng)企SSI首輪融資20億美元谷歌英偉達(dá)聯(lián)手押注

由OpenAI前首席科學(xué)家伊利亞·蘇茨克沃創(chuàng)立的AI公司Safe Superintelligence（SSI）近日完成首輪融資，以20億美元（約合2334.5億元人民幣）創(chuàng)下AI初…

李小白
2025年4月13日