斯坦福團(tuán)隊(duì)發(fā)布全球首個(gè)超小型多模態(tài)AI代理模型Octopus V3,函數(shù)調(diào)用準(zhǔn)確度媲美GPT-4

近日,斯坦福大學(xué)的NEXA AI團(tuán)隊(duì)宣布推出全球首個(gè)多模態(tài)AI代理模型Octopus V3,讓AI代理更加智能、快速、能耗及成本降低。

今年四月份初,NEXA AI推出了備受矚目的Octopus V2,該模型在函數(shù)調(diào)用性能上超越了GPT-4,減少了95%的推理時(shí)所需的文本量,為端側(cè)AI應(yīng)用帶來(lái)了新的可能性。其專利性核心技術(shù)“functional token”通過(guò)創(chuàng)新的函數(shù)調(diào)用方式顯著減少推理時(shí)所需的文本長(zhǎng)度。

這種方法使得模型能夠在只有20億參數(shù)的情況下實(shí)現(xiàn)高效訓(xùn)練,并在精度和延遲方面超越了GPT-4,適應(yīng)了各種端設(shè)備的部署需求。

發(fā)布以來(lái),Octopus V2在LLM社區(qū)獲得了廣泛關(guān)注,受到了AI領(lǐng)域大量前沿技術(shù)專家及研究者的贊賞,如Hugging Face的CTO Julien Chaumond、知名AI Newsletter Rundown AI的創(chuàng)始人 Rowan Cheung以及Figure AI的創(chuàng)始人Brett Adcock、OPPO邊緣人工智能團(tuán)隊(duì)負(fù)責(zé)人Manoj Kumar,稱其“開(kāi)創(chuàng)了端側(cè)AI技術(shù)新紀(jì)元”。

在知名開(kāi)源AI平臺(tái)Hugging Face上,Octopus V2下載量已經(jīng)超過(guò)12000次。

在不到一個(gè)月的時(shí)間里,NEXA AI團(tuán)隊(duì)發(fā)布下一代多模態(tài)AI代理模型Octopus V3,展現(xiàn)進(jìn)一步突破:具有圖像處理和多語(yǔ)言文本處理能力,為智能手機(jī)等端側(cè)設(shè)備真正走向AI時(shí)代鋪平了道路。

AI技術(shù)突破:首個(gè)參數(shù)量小于10億的多模態(tài)AI代理模型

Octopus V3不僅擁有多模態(tài)能力,在函數(shù)調(diào)用性能上遠(yuǎn)超同類模型,可媲美GPT-4V+GPT4;而且模型參數(shù)量不到10億,具有多語(yǔ)言能力。

也就是說(shuō),相比傳統(tǒng)的大型語(yǔ)言模型,它體積更小,能耗更低,能夠更加輕松地在各種小型端設(shè)備上運(yùn)行,比如樹(shù)莓派,并做到高速且準(zhǔn)確的函數(shù)調(diào)用。

這意味著,未來(lái)AI代理能夠廣泛應(yīng)用于智能手機(jī)、AR/VR、機(jī)器人、智能汽車等端側(cè)設(shè)備,為用戶交互體驗(yàn)更加流暢、智能。

另一方面,由于V3具有多模態(tài)處理能力,可同時(shí)處理文本和圖像輸入,再加上多語(yǔ)言能力,也將讓用戶體驗(yàn)更加豐富。

例如,在Instacart購(gòu)物應(yīng)用中,用戶可以通過(guò)一張菠蘿的圖片及簡(jiǎn)單的對(duì)話指令,讓AI代理自動(dòng)為他們搜索商品,提高了效率和用戶的體驗(yàn)。

斯坦福團(tuán)隊(duì)發(fā)布全球首個(gè)超小型多模態(tài)AI代理模型Octopus V3,函數(shù)調(diào)用準(zhǔn)確度媲美GPT-4

再比如,在發(fā)送郵件等場(chǎng)景中,Octopus V3可以根據(jù)一張具有文字的圖像,自動(dòng)提取信息并填寫(xiě)郵件內(nèi)容,為用戶提供更加智能、便捷的服務(wù)。

斯坦福團(tuán)隊(duì)發(fā)布全球首個(gè)超小型多模態(tài)AI代理模型Octopus V3,函數(shù)調(diào)用準(zhǔn)確度媲美GPT-4

Octopus系列模型的發(fā)布標(biāo)志著端側(cè)AI代理技術(shù)的重要突破,可能成為人工智能技術(shù)的新里程碑。

從軟件交互到智能汽車,端側(cè)AI潛力巨大

基于這些特性,Octopus V2及V3的應(yīng)用場(chǎng)景豐富多樣,具有廣泛的應(yīng)用前景。

除上文提到的手機(jī)場(chǎng)景,當(dāng)Octopus V2應(yīng)用在智能汽車上時(shí),也能帶來(lái)新的交互體驗(yàn)。目前的語(yǔ)音助手往往難以幫助車主完成較為復(fù)雜的任務(wù),如在駕駛途中臨時(shí)改變目的地、加入額外停靠點(diǎn)等。應(yīng)用Octopus V3后,AI助手能夠基于較為模糊簡(jiǎn)單的指令快速、精準(zhǔn)地完成相應(yīng)任務(wù)。

結(jié)合V2、V3的能力,從信息檢索、到基于指令完成設(shè)計(jì),用戶可以在虛擬場(chǎng)景下獲得流暢的AI體驗(yàn):在一個(gè)社區(qū)用戶的VR場(chǎng)景demo中,輸入簡(jiǎn)單的語(yǔ)音指令后,AI代理能夠幫助用戶快速完成一個(gè)客廳設(shè)計(jì),在彈指間替換沙發(fā)、改變顏色燈光等。在用戶輸入旅行指令后,用戶快速來(lái)到了日本,而AI代理同樣可以在簡(jiǎn)單的對(duì)話式交流中幫助用戶搜索相應(yīng)景點(diǎn),提供豐富的信息。

數(shù)據(jù)顯示,全球大型語(yǔ)言模型市場(chǎng)規(guī)模正在快速增長(zhǎng)。Granview Research報(bào)告顯示,全球大型語(yǔ)言模型市場(chǎng)規(guī)模估計(jì)為43.5億美元,并預(yù)計(jì)從2024年到2030年的復(fù)合年增長(zhǎng)率為35.9%。同樣,邊緣人工智能市場(chǎng)也呈現(xiàn)出蓬勃發(fā)展的勢(shì)頭——預(yù)計(jì)從2023年到2030年,全球邊緣人工智能市場(chǎng)的復(fù)合年增長(zhǎng)率為21.0%,到2030年將達(dá)到664.78億美元。

NEXA AI團(tuán)隊(duì)由斯坦福大學(xué)的杰出研究人員創(chuàng)立。創(chuàng)始人兼首席科學(xué)家Alex Chen(陳偉)正在攻讀斯坦福大學(xué)的博士學(xué)位,擁有豐富的人工智能研究經(jīng)驗(yàn),并且曾擔(dān)任斯坦福華人創(chuàng)業(yè)協(xié)會(huì)(Stanford Chinese Entrepreneurs Organization)的主席。聯(lián)合創(chuàng)始人兼首席技術(shù)官Zack Li(李志遠(yuǎn))也畢業(yè)于斯坦福大學(xué),并在Google和Amazon Lab126實(shí)驗(yàn)室擁有4年端側(cè)AI的一線研發(fā)經(jīng)驗(yàn),同樣曾經(jīng)擔(dān)任斯坦福華人創(chuàng)業(yè)協(xié)會(huì)的主席。斯坦福大學(xué)副教授、斯坦福技術(shù)創(chuàng)業(yè)項(xiàng)目副主任Charles (Chuck) Eesley擔(dān)任顧問(wèn),為團(tuán)隊(duì)提供指導(dǎo)和支持。

斯坦福團(tuán)隊(duì)發(fā)布全球首個(gè)超小型多模態(tài)AI代理模型Octopus V3,函數(shù)調(diào)用準(zhǔn)確度媲美GPT-4

左:李志遠(yuǎn);右:陳偉

目前,NEXA AI的獨(dú)創(chuàng)性技術(shù)已申請(qǐng)專利保護(hù)。

NEXA AI的創(chuàng)始團(tuán)隊(duì)表示,他們將繼續(xù)致力于推動(dòng)端側(cè)AI技術(shù)的發(fā)展,通過(guò)開(kāi)源模型提升其創(chuàng)新技術(shù)的影響力,為用戶創(chuàng)造更智能、高效的未來(lái)生活。

本文轉(zhuǎn)載自:,不代表科技訊之立場(chǎng)。原文鏈接:http://whjh.rwmeiti.com/preview/1/202405091319569051242.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論