馬斯克 xAI 大模型 Grok 2 登場(chǎng)? ? 能否撼動(dòng)類 GPT-4 級(jí)別行業(yè)格局?

Grok-2系列包括兩個(gè)版本:Grok-2和Grok-2 mini。其中,Grok-2是該公司推理能力最強(qiáng)的語言模型,而輕量化模型Grok-2mini則是Grok-2試圖實(shí)現(xiàn)小參數(shù)體型下的強(qiáng)功能。

當(dāng)?shù)貢r(shí)間8月14日,?埃隆·馬斯克旗下AI初創(chuàng)公司xAI發(fā)布了一款新的聊天機(jī)器人Grok-2,聲稱其性能與競(jìng)爭(zhēng)對(duì)手OpenAI、谷歌和Anthropic的產(chǎn)品相當(dāng)。此次發(fā)布的Grok-2系列包括兩個(gè)版本:Grok-2和Grok-2 mini。其中,Grok-2是該公司推理能力最強(qiáng)的語言模型,而輕量化模型Grok-2mini則是Grok-2試圖實(shí)現(xiàn)小參數(shù)體型下的強(qiáng)功能。

馬斯克 xAI 大模型 Grok 2 登場(chǎng)? ? 能否撼動(dòng)類 GPT-4 級(jí)別行業(yè)格局?

Grok-2因何被稱為理解能力最強(qiáng)?

Grok-2被描述為“類GPT-4級(jí)別”的大模型,具備強(qiáng)大的推理、編程和聊天功能,在xAI內(nèi)部測(cè)試中表現(xiàn)出色。而Grok-2 mini則主打小巧精致,雖然在性能上不及Grok-2,但在響應(yīng)速度方面有著明顯優(yōu)勢(shì),適合對(duì)速度要求較高的場(chǎng)景。

根據(jù)xAI的描述,Grok-2在模型推理能力上取得了顯著進(jìn)步,特別是在處理復(fù)雜任務(wù)時(shí)表現(xiàn)出色。與其前身Grok-1.5相比,Grok-2不僅在推理能力上有所提升,還在工具使用能力上展現(xiàn)出了更強(qiáng)的適應(yīng)性。例如,它能夠更準(zhǔn)確地識(shí)別缺失信息,通過事件序列進(jìn)行推理,并有效排除不相關(guān)的內(nèi)容。這些特性使得Grok-2在面對(duì)各種復(fù)雜任務(wù)時(shí),能夠更加從容應(yīng)對(duì)。

在基準(zhǔn)測(cè)試方面,Grok-2的表現(xiàn)也相當(dāng)亮眼。根據(jù)xAI披露的數(shù)據(jù),Grok-2在LMSYS排行榜上的得分超過了GPT-4 Turbo和Claude 3 Opus,甚至在某些測(cè)試中與GPT-4o和Llama 3-405B平分秋色。不過,這些成績(jī)也引發(fā)了外界的質(zhì)疑。有分析指出,xAI在公布基準(zhǔn)測(cè)試結(jié)果時(shí),選擇了與五月份的GPT-4o得分進(jìn)行對(duì)比,存在利用時(shí)間差美化結(jié)果的嫌疑。這一做法無疑讓外界對(duì)Grok-2的真實(shí)性能產(chǎn)生了更多疑問。

Grok-2躋身前五大AI聊天機(jī)器人之列!

根據(jù)獨(dú)立AI基準(zhǔn)機(jī)構(gòu)的測(cè)試,這款模型已經(jīng)躋身前五大AI聊天機(jī)器人之列,僅落后于谷歌的Gemini和OpenAI的ChatGPT等模型。沃頓商學(xué)院教授、AI專家Ethan Mollick在X上發(fā)帖稱:“現(xiàn)在有五款GPT-4級(jí)別的AI模型:GPT-4o、Claude 3.5、Gemini 1.5、Llama 3.1和現(xiàn)在的Grok-2。” Mollick還稱:“所有的測(cè)試實(shí)驗(yàn)室都表示,AI模型還有繼續(xù)大幅改進(jìn)的空間,但目前我們還沒有看到任何模型真正超越GPT-4?!?/p>

xAI表示,Grok-2是AI模型向前邁出的重要一步,在廣泛的任務(wù)中,無論是尋求答案、協(xié)同寫作,還是解決編碼任務(wù),都更加直觀、可控和通用。 根據(jù)AI模型評(píng)測(cè)機(jī)構(gòu)LMSYS的排名,Grok-2的表現(xiàn)被認(rèn)為優(yōu)于Meta和Anthropic的最強(qiáng)模型。 xAI表示,在內(nèi)部評(píng)估該模型的性能時(shí),其重點(diǎn)是確保系統(tǒng)遵循用戶指示,并提供準(zhǔn)確、真實(shí)的信息。 在此之前,Grok-2的上一代產(chǎn)品被專家批評(píng)為“AI幻覺”,即將虛假信息陳述為事實(shí),這也一直視為企業(yè)采用AI系統(tǒng)的障礙。

與前代模型相比,Grok-2最大的變化之一是具備了直接生成圖像的能力。據(jù)xAI團(tuán)隊(duì)成員透露,Grok-2的圖像生成功能是基于近期廣受歡迎的FLUX.1模型開發(fā)的。這一功能的加入,使得Grok-2在X平臺(tái)上的應(yīng)用更加多樣化,也為用戶提供了更多的創(chuàng)作可能性。

馬斯克特別強(qiáng)調(diào)了Grok-2的圖像生成能力,并指出這一功能將在X平臺(tái)上逐步開放給Premium和Premium+訂閱用戶。值得注意的是,Grok-2的圖像生成功能沒有任何限制,這使得用戶可以利用這一功能創(chuàng)作各種類型的圖像,包括政治人物的照片等。這一功能的開放性在社交媒體上引發(fā)了廣泛討論,部分用戶對(duì)其潛在的濫用表示擔(dān)憂,而另一些用戶則對(duì)其創(chuàng)作自由度表示歡迎。

然而,Grok-2的圖像生成功能也并非毫無限制。根據(jù)用戶反饋,Premium用戶每月可以生成約20-30張圖像,而Premium+用戶則可以生成更多的圖像。盡管這一限制在一定程度上控制了資源的使用,但也引發(fā)了部分用戶的不滿,認(rèn)為這一限制可能影響用戶的創(chuàng)作體驗(yàn)。

寫在最后:

在Grok-2發(fā)布的同時(shí),馬斯克也透露了xAI的未來計(jì)劃。根據(jù)他此前的公開發(fā)言,xAI正在全力開發(fā)Grok-3模型,預(yù)計(jì)將于今年年底發(fā)布。Grok-3的開發(fā)規(guī)模和資源投入令人矚目,據(jù)馬斯克透露,xAI團(tuán)隊(duì)為Grok-3的訓(xùn)練調(diào)用了10萬塊英偉達(dá)H100芯片,目標(biāo)是在今年年底前推出一款“按每項(xiàng)指標(biāo)衡量都是世界上最強(qiáng)大的人工智能模型”。

對(duì)于xAI而言,Grok-3的發(fā)布將是一次至關(guān)重要的挑戰(zhàn)。如果Grok-3能夠成功實(shí)現(xiàn)其目標(biāo),xAI有望在AI行業(yè)中占據(jù)更為重要的地位。然而,考慮到目前AI行業(yè)的激烈競(jìng)爭(zhēng),以及OpenAI、Google等科技巨頭的強(qiáng)大實(shí)力,xAI要想真正突圍,仍需在技術(shù)創(chuàng)新和產(chǎn)品應(yīng)用上取得更大突破。

原創(chuàng)文章,作者:科技探索者,如若轉(zhuǎn)載,請(qǐng)注明出處:http://2079x.cn/article/674087.html

科技探索者的頭像科技探索者管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論