多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

8月15日,科大訊飛發(fā)布星火認(rèn)知大模型2.0,各項性能持續(xù)提升的同時,代碼和多模態(tài)能力迎來全新突破。在發(fā)布會上,劉慶峰表示,訊飛星火2.0的多模態(tài)能力處于業(yè)內(nèi)領(lǐng)先位置。

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

而日前,據(jù)新華社研究院中國企業(yè)發(fā)展研究中心發(fā)布的《人工智能大模型體驗報告2.0》顯示,訊飛星火1.5在智商指數(shù)和工具提效指數(shù)兩個維度獲得第一,總分1013分,僅比人類優(yōu)秀答案差1分。

訊飛星火多模態(tài)能力究竟如何?今天我們就從一個普通用戶的角度,將它和百度文心一言,360智能這兩大模型做一個簡單對比。

之所以選擇這兩大模型為靶的,是因為相較于商湯商量、智譜ChatGLM等以企業(yè)用戶為主的產(chǎn)品來說,訊飛星火、文心一言和360智腦是普通用戶最容易、也是最常接觸到的大模型。

測試內(nèi)容主要包括目前在幾大模型中用戶可免費使用的通用能力,即:單一圖片生成、多輪圖片生成(即在第一幅畫的基礎(chǔ)上進(jìn)行修改)、圖片解讀和看圖作文等。

之所以沒有將音頻和視頻生成納入評測范圍,是因為目前國內(nèi)主流大模型,還沒有免費開放這兩項能力。

1.單一圖片生成

任務(wù)1:畫座雪山,雪山上有登山者和登山者的帳篷,時間是中午,陽光明媚,登山者正在帳篷外吃飯。

訊飛星火

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

文心一言

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

360智腦

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

在該組指令中,科大訊飛星火和百度文心一言大模型均根據(jù)要求,完整照顧到了雪山、登山者、帳篷、中午,陽光明媚和吃飯等幾大要素。

360智腦雖然突出了雪山和帳篷,卻忽略了登山者和吃飯這兩大要求,而且有些畫面也沒有表現(xiàn)出時間是中午且陽光明媚的意境,總體表現(xiàn)稍嫌拉胯。

360智腦的最大優(yōu)勢是它同時能生成四幅圖片供用戶選擇,在這一點上,值得訊飛星火和文心一言效果差不多。

任務(wù)2:請根據(jù)“枯藤老樹昏鴉,小橋流水人家”這句詩畫一幅畫

訊飛星火

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

文心一言

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

      360智腦

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

該組指令要求畫面包含7大要素:枯藤、老樹、黃昏、烏鴉,小橋、流水、人家。從生成效果看,訊飛星火幾乎完美地體現(xiàn)了所有要素,只是在“黃昏”這一要素中,由于它采用的是傳統(tǒng)水墨畫方式,不太容易看出來,所以不好斷定。

文心一言則描繪出了小橋、流水、人家,而忽視了枯藤和烏鴉。它雖然畫出了樹,但明顯不是老樹,與指令不符。而在時段方面,它與訊飛星火一樣,很難斷定表現(xiàn)的是不是黃昏景色。

至于360智腦,雖然明顯表現(xiàn)出了“黃昏”這一主題,有些畫中還突出了烏鴉,但卻直接無視了“小橋、流水、人家”三大要素,與指令相差較遠(yuǎn)。

任務(wù)3寫出李白的《靜夜思》;根據(jù)這首詩畫幅畫。

訊飛星火

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

文心一言

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

360智腦

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

這一指令牽涉到多輪對話,三大模型均能按照要求輕松寫出李白《靜夜思》這首詩,但在第二指令中,只有訊飛星火完整體現(xiàn)出了詩中所涉及到的“床”“明月”人”三大要素,畫意與詩意的契合度最高。

其次是文心一言,雖然沒有“床”,明月看上去應(yīng)該是太陽,但起碼詩味十足,畫中的主人神色凝重,瞅著的確是在思念什么。

360智腦的表現(xiàn)依然不盡如人意,極大可能是根據(jù)沒有將第二指令和第一指令聯(lián)系起來,而只是隨便畫了四幅畫敷衍塞責(zé)。

2.多輪圖片生成

任務(wù)1畫一個湖,湖上荷花盛開,岸邊有樹;請在湖上補畫一只小船船上有少女搖櫓。

訊飛星火

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

文心一言

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

360智腦

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

在這項任務(wù)中,訊飛星火和文心一言都能聯(lián)系第一輪對話中的要求,在第二幅畫中添加船和搖櫓的小女,且第一幅畫均表現(xiàn)了湖中荷花盛開,湖岸綠樹搖曳的美景,唯一遺憾的是,兩者都不是在第一幅的基礎(chǔ)進(jìn)行添加,而是在保留第一幅畫所有元素的基礎(chǔ)上,重新生成了圖畫。

360智腦第一輪就敗了,湖上沒有荷花,主體也變成了湖岸,顯然并沒有理解指令的意圖。

任務(wù)2:畫條山中小路;牛走在小路上;牧童騎在牛身上

訊飛星火

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

文心一言

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

360智腦

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

該組任務(wù)和上組不同的是,第二輪、第三輪指令中并沒有指出是在畫上補加角色,主要目的是要考驗三大模型在多模態(tài)能力上的多輪對話能力。

在這方面,訊飛星火的表現(xiàn)明顯要好,三次作畫都抓住了第一輪要求的“山中小路”這一指定場景。

其次是文心一言,盡管第三輪作畫時出現(xiàn)了明顯的失誤,將場景設(shè)定為了山坡,但至少第二次符合要求。

表現(xiàn)最不理想的依然是360智腦,自第二輪開始就脫離了作畫范疇,自言自語地做起詩來,把作畫的初衷完全拋在了腦后。

3.圖片解讀

所謂圖片解讀,就是給大模型一張圖片,讓它解讀出圖中的內(nèi)容。可以確定的是,360智能目前未提供這樣的功能。因此此番評比及下面的根據(jù)解讀內(nèi)容生成故事測試,只能在訊飛星火和文心一言中進(jìn)行。

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

需要提醒大家的是,文心一言的圖片解讀功能需要借助插件“說圖解畫”才能實現(xiàn),在使用該功能時,別忘啟用該插件。

此輪評測中,使用的圖片有兩類,不有含特殊信息和包含特殊信息,評測圖片來源于網(wǎng)絡(luò)。

任務(wù)1:不含特殊信息圖片解讀

解讀1:

訊飛星火

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

文心一言

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

在對這張圖片中的解讀中,很明顯,訊飛星火給出的信息更加詳細(xì),不僅描述出了圖片主體——“一只橙色的狐貍站在雪地上”,并指明拍攝地點是“戶外”,而且詳細(xì)描述了狐貍的尾巴、眼睛、鼻子、耳朵和腿,同時涉及到周圍的景物,如樹木和灌木叢等。

文心一言給出的信息較少,主要突出了狐貍的神態(tài)和給人的感受上,如“它的眼神似乎在尋找著什么”“它仍然保持著警惕和謹(jǐn)慎的態(tài)度”。

解讀中,文心一言犯了一個錯誤——“它的身體被雪覆蓋得嚴(yán)嚴(yán)實實”,與前面的“站在雪地上”相互矛盾。

解讀2:

訊飛星火

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

文心一言

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

這幅圖片,兩大模型解釋得都不錯,但文心一言似乎總愿意根據(jù)自己的喜好,在解讀中加進(jìn)某些不存在的情節(jié),比如這幅畫上根本沒有人,但文心一言卻給出了這樣的描述:“在田野上漫步的人們,享受著自然的美好和寧靜的氛圍。他們或許正在欣賞美景、享受美食或者只是單純地放松身心?!泵黠@多此一舉。

任務(wù)2:含特殊信息圖片解讀

這里的特殊信息包括但不限于圖片中隱含的景點信息,動物品種信息和文字信息等。

比如同樣是老虎圖片,但有的描繪的是東北虎,有的是孟加拉虎,有的是里?;ⅲ械膮s是華南虎等,種類并不一樣。

之所以要設(shè)置這一評測環(huán)節(jié),旨在考驗兩大模型能否綜合各類知識并在多模態(tài)能力上有所展示。

解讀1:

訊飛星火

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

文心一言

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

兩大模型均準(zhǔn)確識別出圖中狗的種類是博美(又名波美拉尼亞)犬,值得點贊,但從對整個畫面的解讀來看,訊飛星火解讀內(nèi)容似乎更加忠實于畫作,很少發(fā)揮想像力。

文心一言則照例進(jìn)行了煽情描述,如:它“似乎正在微笑或享受陽光”“它似乎正在跟主人玩?!钡?,此外,它還竟然注意到了狗的“小鼻子下掛著一條濕漉漉的鼻涕”,而實際上畫面上并沒有鼻涕。

解讀2:

訊飛星火

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

     文心一言

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

兩者都成功識別出上述畫作對應(yīng)的景點是黃山,但都沒有指出圖片拍的是黃山迎客松,這不能不說是一大遺憾。

在解讀上,訊飛星火可謂中規(guī)中矩,對松樹、巖石、周圍的植被和樹木的形態(tài)都有所提及,并且解釋了之所以判斷該圖片拍攝的景點是黃山的原因:“通過觀察松樹的生長環(huán)境”。并在結(jié)尾部分,對圖片拍攝的主題作了歸納“這幅畫通過細(xì)膩的描繪和色彩運用,將黃山的美麗景色展現(xiàn)得淋漓盡致”。

相比之下,文心一言就顯得有些突兀,上來就介紹黃山,而對為什么要介紹黃山和畫面內(nèi)容一字未提。

解讀3:

訊飛星火

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

文心一言

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

解讀該圖片的目的,是檢驗兩大模型能否識別圖中的文字。訊飛星火順利識別出“保定站”,文心一言則沒有。除此之外,兩大模型都成功識別圖片對應(yīng)的場所是火車站。

4. 根據(jù)圖片內(nèi)容寫文章

任務(wù)1:根據(jù)圖片內(nèi)容生成一篇500字左右的小故事。

訊飛星火

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

文心一言

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

故事構(gòu)成有三個基本要素:人物、背景、情節(jié),就這一意義來說,訊飛星火給出的故事更具故事特征。

人物:兩只小猴子,一只叫米奇,另一只叫米妮,他們是朋友。

背景:在茂密的熱帶雨林中,

情節(jié):兩只猴子發(fā)現(xiàn)一個瀑布,瀑布下是水潭。兩只小猴子很喜歡這個水潭,常常到這里玩耍。有一天,米妮為抓魚跳進(jìn)水潭,遇到危險,米奇勇敢地將她救了上來,從此他們的友誼更加深厚。

在上述故事中,訊飛星火充分利用了在圖片中捕捉到手兩只猴子緊緊擁抱、旁邊是水的信息,充分發(fā)揮,最終創(chuàng)作出一個情節(jié)跌宕起伏,構(gòu)思合理的小故事。

而文心一言則將主題設(shè)定為愛情,并沒有情節(jié)襯托,因此讀起來更像是散文。

任務(wù)2:根據(jù)圖片內(nèi)容生成一篇500字左右的散文。

訊飛星火

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

文心一言

多模態(tài)爭霸!訊飛星火2.0、文心一言和360智腦誰更強?

這一環(huán)節(jié),訊飛星火依然秉承了寫故事時的不俗表現(xiàn),設(shè)定了人物、情節(jié),將散文寫成了敘事形式,言之有物,可讀性很強。

文心一言則注重解讀了圖片內(nèi)容,看起來更像是簡單解讀的詳細(xì)版。

小結(jié):

通過上面評測不難看出,在多模態(tài)能力方面,科大訊飛星火2.0的確擁有領(lǐng)先行業(yè)的優(yōu)勢,表現(xiàn)不俗,無論是AI作畫、圖片解讀還是看圖作文,都能較好勝任,同時回復(fù)速度也是三大模型中最快的,

其次是文心一言,雖然總體能力不及訊飛星火,但在看圖作文方面也擁有自己的特點,比如,它在每次解讀完成,都會提醒用戶可以使用不同的方式進(jìn)行提問,方便用戶快速了解其與解讀相關(guān)的功能。

原創(chuàng)文章,作者:陳晨,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/576759.html

陳晨陳晨管理團隊

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論