馬斯克 xAI 大模型 Grok 2 登場? ? 能否撼動類 GPT-4 級別行業(yè)格局?

Grok-2系列包括兩個版本:Grok-2和Grok-2 mini。其中,Grok-2是該公司推理能力最強的語言模型,而輕量化模型Grok-2mini則是Grok-2試圖實現(xiàn)小參數(shù)體型下的強功能。

當?shù)貢r間8月14日,?埃隆·馬斯克旗下AI初創(chuàng)公司xAI發(fā)布了一款新的聊天機器人Grok-2,聲稱其性能與競爭對手OpenAI、谷歌和Anthropic的產(chǎn)品相當。此次發(fā)布的Grok-2系列包括兩個版本:Grok-2和Grok-2 mini。其中,Grok-2是該公司推理能力最強的語言模型,而輕量化模型Grok-2mini則是Grok-2試圖實現(xiàn)小參數(shù)體型下的強功能。

馬斯克 xAI 大模型 Grok 2 登場? ? 能否撼動類 GPT-4 級別行業(yè)格局?

Grok-2因何被稱為理解能力最強?

Grok-2被描述為“類GPT-4級別”的大模型,具備強大的推理、編程和聊天功能,在xAI內(nèi)部測試中表現(xiàn)出色。而Grok-2 mini則主打小巧精致,雖然在性能上不及Grok-2,但在響應速度方面有著明顯優(yōu)勢,適合對速度要求較高的場景。

根據(jù)xAI的描述,Grok-2在模型推理能力上取得了顯著進步,特別是在處理復雜任務時表現(xiàn)出色。與其前身Grok-1.5相比,Grok-2不僅在推理能力上有所提升,還在工具使用能力上展現(xiàn)出了更強的適應性。例如,它能夠更準確地識別缺失信息,通過事件序列進行推理,并有效排除不相關的內(nèi)容。這些特性使得Grok-2在面對各種復雜任務時,能夠更加從容應對。

在基準測試方面,Grok-2的表現(xiàn)也相當亮眼。根據(jù)xAI披露的數(shù)據(jù),Grok-2在LMSYS排行榜上的得分超過了GPT-4 Turbo和Claude 3 Opus,甚至在某些測試中與GPT-4o和Llama 3-405B平分秋色。不過,這些成績也引發(fā)了外界的質(zhì)疑。有分析指出,xAI在公布基準測試結果時,選擇了與五月份的GPT-4o得分進行對比,存在利用時間差美化結果的嫌疑。這一做法無疑讓外界對Grok-2的真實性能產(chǎn)生了更多疑問。

Grok-2躋身前五大AI聊天機器人之列!

根據(jù)獨立AI基準機構的測試,這款模型已經(jīng)躋身前五大AI聊天機器人之列,僅落后于谷歌的Gemini和OpenAI的ChatGPT等模型。沃頓商學院教授、AI專家Ethan Mollick在X上發(fā)帖稱:“現(xiàn)在有五款GPT-4級別的AI模型:GPT-4o、Claude 3.5、Gemini 1.5、Llama 3.1和現(xiàn)在的Grok-2?!?Mollick還稱:“所有的測試實驗室都表示,AI模型還有繼續(xù)大幅改進的空間,但目前我們還沒有看到任何模型真正超越GPT-4。”

xAI表示,Grok-2是AI模型向前邁出的重要一步,在廣泛的任務中,無論是尋求答案、協(xié)同寫作,還是解決編碼任務,都更加直觀、可控和通用。 根據(jù)AI模型評測機構LMSYS的排名,Grok-2的表現(xiàn)被認為優(yōu)于Meta和Anthropic的最強模型。 xAI表示,在內(nèi)部評估該模型的性能時,其重點是確保系統(tǒng)遵循用戶指示,并提供準確、真實的信息。 在此之前,Grok-2的上一代產(chǎn)品被專家批評為“AI幻覺”,即將虛假信息陳述為事實,這也一直視為企業(yè)采用AI系統(tǒng)的障礙。

與前代模型相比,Grok-2最大的變化之一是具備了直接生成圖像的能力。據(jù)xAI團隊成員透露,Grok-2的圖像生成功能是基于近期廣受歡迎的FLUX.1模型開發(fā)的。這一功能的加入,使得Grok-2在X平臺上的應用更加多樣化,也為用戶提供了更多的創(chuàng)作可能性。

馬斯克特別強調(diào)了Grok-2的圖像生成能力,并指出這一功能將在X平臺上逐步開放給Premium和Premium+訂閱用戶。值得注意的是,Grok-2的圖像生成功能沒有任何限制,這使得用戶可以利用這一功能創(chuàng)作各種類型的圖像,包括政治人物的照片等。這一功能的開放性在社交媒體上引發(fā)了廣泛討論,部分用戶對其潛在的濫用表示擔憂,而另一些用戶則對其創(chuàng)作自由度表示歡迎。

然而,Grok-2的圖像生成功能也并非毫無限制。根據(jù)用戶反饋,Premium用戶每月可以生成約20-30張圖像,而Premium+用戶則可以生成更多的圖像。盡管這一限制在一定程度上控制了資源的使用,但也引發(fā)了部分用戶的不滿,認為這一限制可能影響用戶的創(chuàng)作體驗。

寫在最后:

在Grok-2發(fā)布的同時,馬斯克也透露了xAI的未來計劃。根據(jù)他此前的公開發(fā)言,xAI正在全力開發(fā)Grok-3模型,預計將于今年年底發(fā)布。Grok-3的開發(fā)規(guī)模和資源投入令人矚目,據(jù)馬斯克透露,xAI團隊為Grok-3的訓練調(diào)用了10萬塊英偉達H100芯片,目標是在今年年底前推出一款“按每項指標衡量都是世界上最強大的人工智能模型”。

對于xAI而言,Grok-3的發(fā)布將是一次至關重要的挑戰(zhàn)。如果Grok-3能夠成功實現(xiàn)其目標,xAI有望在AI行業(yè)中占據(jù)更為重要的地位。然而,考慮到目前AI行業(yè)的激烈競爭,以及OpenAI、Google等科技巨頭的強大實力,xAI要想真正突圍,仍需在技術創(chuàng)新和產(chǎn)品應用上取得更大突破。

原創(chuàng)文章,作者:科技探索者,如若轉載,請注明出處:http://2079x.cn/article/674087.html

科技探索者的頭像科技探索者管理團隊

相關推薦

發(fā)表回復

登錄后才能評論