英偉達開源Nemotron-70B模型,性能超越GPT-4o和Claude 3.5

英偉達開源Nemotron-70B模型,性能超越GPT-4o和Claude 3.5

近日,英偉達悄然開源了其最新的超強大模型——Nemotron-70B。一經(jīng)發(fā)布,該模型便迅速在AI社區(qū)引發(fā)轟動,其性能在多個基準測試中超越了包括GPT-4GPT-4 Turbo以及Claude 3.5 Sonnet在內(nèi)的140多個開閉源模型,僅次于OpenAI的最新模型o1。

Nemotron-70B的基礎(chǔ)模型是基于Llama-3.1-70B開發(fā)而成,并通過人類反饋強化學習進行了訓練,特別是采用了“強化算法”。在訓練過程中,英偉達使用了一種新的混合訓練方法,包括Bradley-Terry和Regression在內(nèi)的訓練獎勵模型,同時開源了訓練數(shù)據(jù)集。該模型基于Llama-3.1-Nemotron-70B-Reward提供獎勵信號,并利用HelpSteer2-Preference提示來引導(dǎo)模型生成符合人類偏好的答案。

在LMSYS大模型競技場中的Arena Hard評測中,Nemotron-70B得分85,在AlpacaEval 2 LC上得分57.6,在GPT-4-Turbo MT-Bench上為8.98。這些成績充分展示了其強大的性能。

網(wǎng)友們紛紛對Nemotron-70B進行了測試,發(fā)現(xiàn)該模型在處理復(fù)雜問題時表現(xiàn)出色。例如,在回答關(guān)于香蕉數(shù)量的問題時,Nemotron-70B能夠準確地將問題所給信息進行分解,并一步一步推理得出正確答案。此外,在回答關(guān)于活到89歲的名人名單時,盡管模型將某人的去世日期弄錯,但整體表現(xiàn)仍然令人印象深刻。

值得注意的是,Nemotron-70B在hard prompt上的表現(xiàn)也備受關(guān)注。雖然在一些測試中未能完全通過,但其給出的初步輸出非常有趣且富有啟發(fā)性。例如,在回答關(guān)于月球距離和步行到月球的合理性的問題時,Nemotron-70B從物理學的角度進行了詳細分析,并得出了合理的結(jié)論。

業(yè)內(nèi)專家表示,英偉達之所以不斷開源超強模型,是為了推動芯片銷售。隨著模型變得越來越復(fù)雜,所有盈利公司都必須訂購更多芯片來訓練這些模型。因此,開源模型實際上是在為硬件銷售鋪路。

然而,對于大模型初創(chuàng)企業(yè)來說,巨頭們的開源策略無疑帶來了巨大的壓力。這些企業(yè)往往難以在商業(yè)落地和名氣上與巨頭們競爭,如果無法創(chuàng)造利潤,將很快失去風投的資助,面臨倒閉的風險。

盡管如此,Nemotron-70B的開源仍然為AI社區(qū)帶來了巨大的價值。該模型的出現(xiàn)不僅推動了AI技術(shù)的發(fā)展,還為研究人員和開發(fā)人員提供了更多的選擇和可能性。

英偉達開源Nemotron-70B模型無疑為AI領(lǐng)域帶來了新的活力和機遇。我們期待未來能夠看到更多優(yōu)秀的開源模型出現(xiàn),共同推動AI技術(shù)的發(fā)展和進步。

原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/686939.html

AI的頭像AI認證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論