智源評(píng)測(cè)體系發(fā)布 國(guó)內(nèi)外“百?!痹u(píng)估結(jié)果出爐

2024年5月17日,智源研究院舉辦大模型評(píng)測(cè)發(fā)布會(huì),正式推出科學(xué)、權(quán)威、公正、開放的智源評(píng)測(cè)體系,發(fā)布并解讀國(guó)內(nèi)外140余個(gè)開源和商業(yè)閉源的語(yǔ)言及多模態(tài)大模型全方位能力評(píng)測(cè)結(jié)果。

本次智源評(píng)測(cè),分別從主觀、客觀兩個(gè)維度考察了語(yǔ)言模型簡(jiǎn)單理解、知識(shí)運(yùn)用、推理能力、數(shù)學(xué)能力、代碼能力、任務(wù)解決、安全與價(jià)值觀七大能力;針對(duì)多模態(tài)模型則主要評(píng)估了多模態(tài)理解和生成能力。

●語(yǔ)言模型

在中文語(yǔ)境下,國(guó)內(nèi)頭部語(yǔ)言模型的綜合表現(xiàn)已接近國(guó)際一流水平,但存在能力發(fā)展不均衡的情況。

●多模態(tài)模型

理解圖文問(wèn)答任務(wù)上,開閉源模型平分秋色,國(guó)產(chǎn)模型表現(xiàn)突出。

在中文語(yǔ)境下,國(guó)產(chǎn)大模型文生圖能力與國(guó)際一流水平差距較小。

文生視頻能力上,對(duì)比各家公布的演示視頻長(zhǎng)度和質(zhì)量,Sora有明顯優(yōu)勢(shì),其他開放評(píng)測(cè)的文生視頻模型中,國(guó)產(chǎn)模型PixVerse表現(xiàn)優(yōu)異。

由于安全與價(jià)值觀對(duì)齊是模型產(chǎn)業(yè)落地的關(guān)鍵,但海外模型與國(guó)內(nèi)模型在該維度存在差異,因此語(yǔ)言模型主客觀評(píng)測(cè)的總體排名不計(jì)入該單項(xiàng)分?jǐn)?shù)

語(yǔ)言模型主觀評(píng)測(cè)結(jié)果顯示,在中文語(yǔ)境下,字節(jié)跳動(dòng)豆包Skylark2、OpenAI GPT-4位居第一、第二,國(guó)產(chǎn)大模型更懂中國(guó)用戶。在語(yǔ)言模型客觀評(píng)測(cè)中,OpenAI GPT-4、百川智能Baichuan3位居第一、第二。百度文心一言4.0、智譜華章GLM-4和月之暗面Kimi均進(jìn)入語(yǔ)言模型主客觀評(píng)測(cè)前五。

圖片 1.png

多模態(tài)理解模型客觀評(píng)測(cè)結(jié)果顯示,圖文問(wèn)答方面,阿里巴巴通義Qwen-vl-max與上海人工智能實(shí)驗(yàn)室InternVL-Chat-V1.5先后領(lǐng)先于OpenAI GPT-4,LLaVA-Next-Yi-34B和上海人工智能實(shí)驗(yàn)室Intern-XComposer2-VL-7B緊隨其后。

圖片 2.png

多模態(tài)生成模型文生圖評(píng)測(cè)結(jié)果顯示,OpenAI DALL-E3位列第一,智譜華章CogView3、Meta-Imagine分居第二、第三,百度文心一格、字節(jié)跳動(dòng)doubao-Image次之。

多模態(tài)生成模型文生視頻,OpenAI Sora、Runway、愛詩(shī)科技PixVerse、Pika、騰訊VideoCrafter-V2位列前五。

圖片 3.png

注:

文生圖模型的客觀評(píng)測(cè)指標(biāo)與主觀感受差異巨大,有失效的跡象,因此排名以主觀評(píng)測(cè)為準(zhǔn);Mdjourney基本無(wú)法理解中文提示詞,因此排名靠后;僅使用其官方公布的prompts和視頻片段與其他模型生成的視頻進(jìn)行對(duì)比評(píng)測(cè),評(píng)測(cè)結(jié)果存在一定的偏差。

首次聯(lián)合權(quán)威教育機(jī)構(gòu)進(jìn)行大模型K12學(xué)科測(cè)試

當(dāng)前,大模型的發(fā)展具備了通用性,在邏輯推理能力上有顯著提升,日趨接近人腦的特征。因此,在海淀區(qū)教委支持下,智源研究院聯(lián)合與海淀區(qū)教師進(jìn)修學(xué)校對(duì)齊學(xué)生測(cè)驗(yàn)方式,考察大模型與人類學(xué)生的學(xué)科水平差異,其中,答案不唯一的主觀題,由海淀教師親自評(píng)卷。

圖片 4.png

智源評(píng)測(cè)發(fā)現(xiàn),模型在綜合學(xué)科能力與海淀學(xué)生平均水平仍有差距,普遍存在文強(qiáng)理弱的情況,并且對(duì)圖表的理解能力不足,大模型未來(lái)有很大的提升空間。

圖片 5.png

北京市海淀區(qū)教師進(jìn)修學(xué)校校長(zhǎng)姚守梅解讀大模型K12學(xué)科測(cè)試結(jié)果時(shí)指出,在語(yǔ)文、歷史等人文學(xué)科的考試中,模型欠缺對(duì)文字背后的文化內(nèi)涵以及家國(guó)情懷的理解。面對(duì)歷史地理綜合題時(shí),模型并不能像人類考生一樣有效識(shí)別學(xué)科屬性。相較于簡(jiǎn)單的英語(yǔ)題,模型反而更擅長(zhǎng)復(fù)雜的英語(yǔ)題。解理科題目時(shí),模型會(huì)出現(xiàn)以超出年級(jí)知識(shí)范圍外的方法解題的情況。當(dāng)出現(xiàn)無(wú)法理解的考題時(shí),模型依然存在明顯的“幻覺”。

系統(tǒng)化構(gòu)建文生視頻模型主觀評(píng)價(jià)體系

中國(guó)傳媒大學(xué)智能媒體計(jì)算實(shí)驗(yàn)室負(fù)責(zé)人史萍教授表示,相較文本,視頻的主觀評(píng)價(jià)復(fù)雜度極高。自動(dòng)化指標(biāo)無(wú)法完全捕捉模型生成的質(zhì)量,更無(wú)法對(duì)生成視頻的真實(shí)性、圖文語(yǔ)義一致性等進(jìn)行量化。因此,需要系統(tǒng)化構(gòu)建針對(duì)文生視頻模型的主觀評(píng)價(jià)體系

圖片 6.png

該評(píng)價(jià)體系,由智源研究院與中國(guó)傳媒大學(xué)基于雙方在大模型評(píng)測(cè)領(lǐng)域和視頻質(zhì)量評(píng)價(jià)領(lǐng)域的豐富科研成果與實(shí)踐經(jīng)驗(yàn)共同建立,在圖文一致性、真實(shí)性、視頻質(zhì)量、美學(xué)質(zhì)量四大方面給出多維度評(píng)分,為AIGC視頻生成技術(shù)的應(yīng)用及發(fā)展提供參考。

科學(xué)權(quán)威公正開放的智源評(píng)測(cè)體系

依托科技部“人工智能基礎(chǔ)模型支撐平臺(tái)與評(píng)測(cè)技術(shù)”工信部“大模型公共服務(wù)平臺(tái)”項(xiàng)目,智源研究院與10余家高校和機(jī)構(gòu)聯(lián)合開展大模型評(píng)測(cè)方法與工具研發(fā)。

2023年6月,由智源研究院與多個(gè)高校團(tuán)隊(duì)共建的FlagEval大模型評(píng)測(cè)平臺(tái)(https://flageval.baai.ac.cn/)上線,迄今為止已完成了1000多次覆蓋全球多個(gè)開源大模型的評(píng)測(cè),并持續(xù)發(fā)布評(píng)測(cè)結(jié)果,廣泛地積累了國(guó)際領(lǐng)先的評(píng)測(cè)技術(shù)。

開放服務(wù)

1智源Flag Eval天秤大模型評(píng)測(cè)平臺(tái):

https://flageval.baai.ac.cn

2 與Hugging Face社區(qū)合作的開放中文大語(yǔ)言模型評(píng)測(cè)榜單 (Open Chinese LLM Leaderboard):

https://huggingface.co/spaces/BAAI/open_cn_Ilm_leaderboard

3  首個(gè)借助大模型合成數(shù)據(jù)的多元異質(zhì)信息檢索評(píng)估基準(zhǔn)–智源AirBench 

https://github.com/AIR-Bench/AIR-Bench

智源研究院牽頭成立了IEEE大模型評(píng)測(cè)標(biāo)準(zhǔn)小組P3419,組織20余家企業(yè)及學(xué)者參與大模型標(biāo)準(zhǔn)建設(shè),同時(shí)作為《人工智能預(yù)訓(xùn)練模型評(píng)測(cè)指標(biāo)與方法》國(guó)家標(biāo)準(zhǔn)草案的共建單位,智源此次的模型評(píng)測(cè),借鑒了該標(biāo)準(zhǔn),采取了客觀評(píng)測(cè)統(tǒng)一規(guī)則與主觀評(píng)測(cè)多重校驗(yàn)打分相結(jié)合的方法。其中,開源模型采用模型發(fā)布方推薦的推理代碼及運(yùn)行環(huán)境,對(duì)所有模型統(tǒng)一使用業(yè)界通用的提示語(yǔ),不針對(duì)模型做提示語(yǔ)的優(yōu)化。

本次智源評(píng)測(cè)使用20余個(gè)數(shù)據(jù)集、超8萬(wàn)道考題,包括與合作單位共建和智源自建的多個(gè)評(píng)測(cè)數(shù)據(jù)集,如中文多模態(tài)多題型理解及推理評(píng)測(cè)數(shù)據(jù)集CMMU、中文語(yǔ)義評(píng)測(cè)數(shù)據(jù)集C-SEM、中文語(yǔ)言及認(rèn)知主觀評(píng)測(cè)集CLCC、面向復(fù)雜算法代碼生成任務(wù)的評(píng)測(cè)集TACO、文生圖主觀評(píng)測(cè)集Image-gen、多語(yǔ)言文生圖質(zhì)量評(píng)測(cè)數(shù)據(jù)集MG18、文生視頻模型主觀評(píng)測(cè)集 CUC T2V prompts。其中,主觀題4000余道,均來(lái)源于自建原創(chuàng)未公開并保持高頻迭代的主觀評(píng)測(cè)集,嚴(yán)格校準(zhǔn)打分標(biāo)準(zhǔn),采取多人獨(dú)立匿名評(píng)分、嚴(yán)格質(zhì)檢與抽檢相結(jié)合的管理機(jī)制,降低主觀偏差的影響。此外,為了更準(zhǔn)確地評(píng)測(cè)語(yǔ)言模型的各項(xiàng)能力,智源專門對(duì)所有客觀數(shù)據(jù)集的子數(shù)據(jù)集進(jìn)行了能力標(biāo)簽映射。

圖片 7.png

科學(xué)權(quán)威公正開放,是智源評(píng)測(cè)的最高綱領(lǐng)。智源研究院院長(zhǎng)王仲遠(yuǎn)表示,未來(lái),智源將攜手生態(tài)合作伙伴繼續(xù)共建完善評(píng)測(cè)體系,促進(jìn)模型性能的優(yōu)化以及在多元復(fù)雜場(chǎng)景下的產(chǎn)業(yè)落地,推動(dòng)大模型技術(shù)應(yīng)用的有序發(fā)展。

最后需要說(shuō)明的是,此次智源評(píng)測(cè)結(jié)果仍有一定的局限性:

1.本次評(píng)測(cè)主要集中于通用大模型的評(píng)測(cè),還未覆蓋到垂直領(lǐng)域大模型;主要目標(biāo)是為國(guó)內(nèi)大模型生態(tài)提供參考,因此側(cè)重于在中文語(yǔ)境下的評(píng)估;通過(guò)API訪問(wèn)模型會(huì)與網(wǎng)頁(yè)端訪問(wèn)有差異,在一定程度上也會(huì)影響模型表現(xiàn)。

2. 本次評(píng)測(cè)各模型廠商發(fā)布的最新版本截至2024年4月20日,不代表各個(gè)廠商最新發(fā)布的模型性能表現(xiàn)。智源后續(xù)將持續(xù)、定期更新評(píng)測(cè)結(jié)果,歡迎模型廠商與智源交流、評(píng)測(cè)最新版本的模型能力。

3. 雖然我們努力將更多數(shù)據(jù)集納入本次評(píng)測(cè),但由于資源和時(shí)間限制,僅精選了部分有代表性的數(shù)據(jù)集,后續(xù)我們也會(huì)持續(xù)擴(kuò)充和新編數(shù)據(jù)集,將特別關(guān)注在復(fù)雜任務(wù)和垂直領(lǐng)域上的評(píng)測(cè)集建設(shè),歡迎開放討論,共建共享評(píng)測(cè)數(shù)據(jù)及工具。

4. 單次評(píng)測(cè)的結(jié)果一定存在偏差,智源也將持續(xù)跟蹤大模型能力的發(fā)展,歡迎大家持續(xù)的關(guān)注和支持。

本文轉(zhuǎn)載自:,不代表科技訊之立場(chǎng)。原文鏈接:http://zl.yisouyifa.com/html/240517/1803291728418944.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論