剛剛,OpenAI發(fā)布o(jì)1推理模型,碾壓GPT-4o,物化生水平比肩人類(lèi)博士

據(jù) OpenAI 介紹,在測(cè)試中,o1 的下一個(gè)更新模型在物理、化學(xué)和生物等具有挑戰(zhàn)性的基準(zhǔn)任務(wù)上的表現(xiàn)達(dá)到了博士生的水平。

OpenAI 的“草莓”模型正式發(fā)布,名為“o1”,這是一系列新的人工智能模型,旨在花更多時(shí)間思考后再做出回答。

剛剛,OpenAI發(fā)布o(jì)1推理模型,碾壓GPT-4o,物化生水平比肩人類(lèi)博士

與以前的科學(xué)、編碼和數(shù)學(xué)模型相比,o1 模型可以推理復(fù)雜的任務(wù),解決更難的問(wèn)題。

就像人類(lèi)一樣,o1 系列模型會(huì)用更多時(shí)間思考問(wèn)題,然后再做出回答。通過(guò)訓(xùn)練,這些模型學(xué)會(huì)了完善思考過(guò)程、嘗試不同的策略,并認(rèn)識(shí)到自己的錯(cuò)誤。

據(jù) OpenAI 介紹,在測(cè)試中,o1 的下一個(gè)更新模型在物理、化學(xué)和生物等具有挑戰(zhàn)性的基準(zhǔn)任務(wù)上的表現(xiàn)達(dá)到了博士生的水平。

他們還發(fā)現(xiàn),這一模型在數(shù)學(xué)和編碼方面表現(xiàn)出色。在國(guó)際數(shù)學(xué)奧林匹克(IMO)的資格考試中,GPT-4o 只正確解決了 13% 的問(wèn)題,而 o1 模型的得分率則高達(dá) 83%。

此外,o1 模型的編碼能力也在競(jìng)賽中得到了評(píng)估,在 Codeforces 競(jìng)賽中達(dá)到了第 89 個(gè)百分點(diǎn)。

作為早期模型,o1 還不具備 ChatGPT 的許多實(shí)用功能,如瀏覽網(wǎng)頁(yè)信息、上傳文件和圖片等。對(duì)于許多常見(jiàn)情況,GPT-4o 在短期內(nèi)會(huì)有更強(qiáng)的功能。

但 OpenAI 表示,o1 模型更擅長(zhǎng)解決科學(xué)、編碼、數(shù)學(xué)和類(lèi)似領(lǐng)域的復(fù)雜問(wèn)題。例如,醫(yī)療保健研究人員可以使用 o1 為細(xì)胞測(cè)序數(shù)據(jù)添加注釋?zhuān)锢韺W(xué)家可以使用 o1 生成量子光學(xué)所需的復(fù)雜數(shù)學(xué)公式,所有領(lǐng)域的開(kāi)發(fā)人員都可以使用 o1 構(gòu)建和執(zhí)行多步驟工作流。

以下三個(gè)視頻 demo 展示了o1 模型在解決復(fù)雜推理問(wèn)題方面的強(qiáng)大能力。

此外,在安全性方面,OpenAI 提出了一種新的安全訓(xùn)練方法,利用 o1 模型的推理能力,使它們遵守安全和對(duì)齊準(zhǔn)則。通過(guò)在上下文中對(duì)安全規(guī)則進(jìn)行推理,o1 模型可以更有效地應(yīng)用這些規(guī)則。

衡量安全性的方法之一,是測(cè)試當(dāng)用戶(hù)試圖繞過(guò)安全規(guī)則(即“越獄”)時(shí),模型能在多大程度上繼續(xù)遵循其安全規(guī)則。在最難的越獄測(cè)試中,GPT-4o 得分為 22 分(0-100 分),而 o1-preview 得分為 84 分。

此外,為了向開(kāi)發(fā)人員提供更高效的解決方案,OpenAI 還同時(shí)發(fā)布了 o1-mini,這是一種速度更快、成本更低的推理模型,在編碼方面尤為有效。作為一個(gè)較小的模型,o1-mini 比 o1-preview 便宜 80%,因此對(duì)于需要推理但不需要廣泛世界知識(shí)的應(yīng)用程序來(lái)說(shuō),它是一個(gè)經(jīng)濟(jì)高效的模型。

目前,o1 的預(yù)覽版本和 o1-mini 已經(jīng)在 ChatGPT(Plus 和 Team)和 API 上線(xiàn)。未來(lái),o1-mini 將提供給所有 ChatGPT 免費(fèi)用戶(hù)使用。

原創(chuàng)文章,作者:潮玩君,如若轉(zhuǎn)載,請(qǐng)注明出處:http://2079x.cn/article/680293.html

潮玩君的頭像潮玩君管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論