中國信通院發(fā)布“方升”大模型基準測試體系

陳晨 ? 2024年1月2日 09:28:09 ? 產經

當前，大模型正引領著新一輪技術革命，大模型的全方位測評對于開發(fā)驗證、產品選型和能力提升都至關重要。但是，已有大模型基準測試以評估模型通用能力為主，存在評測方法不統(tǒng)一、評測方式單一、距離實際應用較遠等問題。因此，亟需建立一套面向產業(yè)應用的大模型基準測試體系，搭建全量測試題庫、自動測試平臺和高效測試方法，滿足大模型能力持續(xù)監(jiān)測和能力迭代的要求。

2023年12月24日，中國信息通信研究院（簡稱“中國信通院”）發(fā)布“方升”大模型評測體系，旨在建立業(yè)界大模型基準測試統(tǒng)一的“度量衡”?！胺缴睖y試體系涵蓋大模型基準測試的關鍵四要素，即測試指標、測試方法、測試數據集和測試工具，目前已形成《大規(guī)模預訓練模型基準測試-總體技術要求》標準。

大模型基準測試體系“方升”

測試指標方面，“方升”測試體系主要針對行業(yè)、應用、通用和安全四個維度對大模型進行全面、客觀、統(tǒng)一的評估，為了加速大模型應用落地，重點強化了行業(yè)和應用導向能力的考查。

在測試方法方面，“方升”測試體系創(chuàng)新性提出自適應動態(tài)測試方法，從測試數據標簽化、測試題庫實時化、測試方案定制化、測試流程自動化四個方面全面提升大模型基準測試質量，重點解決大模型“刷榜”問題。

測試數據方面，“方升”測試體系搭建動態(tài)測試數據庫，涵蓋測試數據集107個，測試數據條數達到123萬，聯合產業(yè)界多家機構首次推出面向行業(yè)、通用、應用、安全領域的評測數據集6個。

測試框架與工具方面，中國信通院在構建超自動化測試平臺和智能化結果評估系統(tǒng)方面持續(xù)發(fā)力，探索解決國內外人工智能自動化測試流程中存在的“阻塞點”，全面提高測試效率。

“方升”大模型基準測試體系由中國信通院聯合北京智源研究院、認知智能全國重點實驗室和天津大學共同發(fā)布。此外，國網智能電網研究院、首都之窗、天津大學、中國電信研究院、中國聯通軟件研究院、華為、甲骨易、海天瑞聲、東方財富9家單位成為“方升”大模型基準測試首批合作伙伴。

大模型基準測試不僅是大模型應用開發(fā)的終點，更是驅動大模型能力提升的起點。中國信通院誠邀產學研用各方加入“方升”大模型基準測試體系，共同探索人工智能評測創(chuàng)新發(fā)展之路，建設科學、客觀、中立的人工智能評測基準，為全面提升中國人工智能評測水平貢獻力量！

原創(chuàng)文章，作者：陳晨，如若轉載，請注明出處：http://2079x.cn/article/614134.html

陳晨管理團隊

0 0

產經

加速文旅、娛樂行業(yè)數字化發(fā)展，PICO 正式推出XR大空間內容運營解決方案

近年來，線下沉浸娛樂行業(yè)迎來了新一波熱潮。伴隨這股風潮，許多線下文旅景區(qū)、文博場館、商超運營者們，開始爭相打造自己的內容IP，開發(fā)各類大空間XR內容來打造虛擬體驗，借助沉浸式線下X…

陳晨
19小時前
產經

安吉爾37周年感恩回饋季，全天候直播開啟福利大派送

今年是安吉爾成立37周年，在周年慶之際，安吉爾開啟感恩回饋季，以一系列活動回饋廣大消費者。據了解，在10月26日，安吉爾將在抖音“安吉爾福利官”直播間和天貓官方旗艦店雙平臺同步開啟…

陳晨
19小時前
2024科大訊飛全球1024開發(fā)者節(jié)，AI文娛論壇亮點紛呈

10月24日，2024科大訊飛全球1024開發(fā)者節(jié)AI文娛論壇在合肥圓滿舉辦。論壇以“重構內容與表達”為主題，旨在探討AI時代下文娛產業(yè)的最新趨勢，見證訊飛AI文娛業(yè)務的重大發(fā)布，…

陳晨
產經 19小時前
產經

安吉爾攜三大場景凈水解決方案，亮相新加坡國際食品與酒店展覽會

10月22日至25日，新加坡國際食品與酒店展覽會（FHA HoReCa 2024）成功舉辦。FHA HoReCa是亞太地區(qū)最大的餐飲、酒店和食品服務行業(yè)展會之一，為餐飲和酒店行業(yè)的…

陳晨
19小時前
產經

易慧智能發(fā)布汽車行業(yè)大模型評測集，并重磅推出模型路由技術方案

10月25日，汽車行業(yè)AI產品和業(yè)務解決方案提供商易慧智能發(fā)布了汽車行業(yè)首個大模型評測集。此次評測旨在全面評估市面上主流大模型在汽車行業(yè)中的實際應用效果，特別關注于汽車營銷場景的應…

陳晨
19小時前
產經

訊飛星火與華為數據存儲強強聯手，“以存強算” 助力AI集群算力利用率飆升30%

在風云變幻的AI大模型時代，科大訊飛與華為的聯合拓展令人印象深刻。過去幾年來，雙方協(xié)同創(chuàng)新突破重重障礙，一次次證明國產算力基礎設施可以支撐國產AI大模型良性發(fā)展，在關鍵性能和體驗上…

陳晨
22小時前
產經

MagicOS 9.0發(fā)布，榮耀互聯網服務革新AI體驗

2024年10月23-24日，以“見證AI魔法”為主題的榮耀MagicOS 9.0發(fā)布會及開發(fā)者大會（HGDC.2024）在北京中關村國際創(chuàng)新中心舉辦。作為行業(yè)首個搭載跨應用開放生…

陳晨
22小時前
產經

抖音電商雙11開門紅｜差異化作者生態(tài)成就好內容、促成好銷量

雙11熱度逐漸升溫，漸入高潮。為何今年雙11各大電商平臺集體搶跑，國慶假期一結束便立刻進入緊張的雙11籌備階段。電商競爭走向深水區(qū)，電商行業(yè)格局也邁進嶄新的階段。一、直播電商，…

陳晨
22小時前
科脈驚艷亮相第十六屆中國商業(yè)信息化行業(yè)大會

當下，在數字化和AI技術的落地應用推動中，零售行業(yè)的格局正在以前所未有的速度被顛覆、被重塑。如何借助這股技術浪潮，對傳統(tǒng)管理、經營及商業(yè)模式進行創(chuàng)新重塑，提升企業(yè)生命力與核心競爭力…

陳晨
產經 1天前
JetBrains 面向非商業(yè)用途免費提供 WebStorm 和 Rider

領先的專業(yè)軟件開發(fā)工具創(chuàng)造者 JetBrains 宣布為 WebStorm（JavaScript 和 TypeScript IDE）以及 Rider（跨平臺 .…

陳晨
產經 1天前
產經

技嘉科技宣布 AORUS Z890 主板正式上市

AI D5黑科技2.0技術全面釋放強勁性能全球電腦品牌技嘉科技（GIGABYTE）宣布 AORUS Z890 系列主板現已正式開賣。該系列主板專為釋放新一代 Intel? Cor…

陳晨
1天前
標準融合賦能芯片開發(fā)測試：加特蘭獲2024第六屆金輯獎最佳技術實踐應用獎

10月24日，第十二屆汽車與環(huán)境創(chuàng)新論壇暨第六屆金輯獎中國汽車新供應百強頒獎盛典在上海召開。加特蘭微電子軟件研發(fā)負責人鄭珉楠應邀出席，并就“標準協(xié)同——助力汽車芯片高效開發(fā)與測試”…

陳晨
產經 1天前
產經

問界新M7再迎升級，HUAWEI ADS 3.0帶來開新車的超凡體驗

進入秋季，汽車市場迎來了傳統(tǒng)的銷售旺季，各大品牌紛紛使出渾身解數，以爭搶市場份額。其中，問界新M7系列的市場表現尤為出色，截止10月20日，今年累計銷量已超過16.45萬輛，在眾多…

陳晨
1天前
產經

10月31日，迪麗熱巴空降德施曼品牌直播間，暢聊居家生活美學

10月31日晚8點30分,德施曼智能鎖代言人迪麗熱巴,將空降德施曼官方直播間,與德施曼董事長/CEO祝志凌一起暢聊現代智能家居生活的無限可能,分享關于居家安全與儀式感的獨到見解。屆…

陳晨
1天前
產經

2024驍龍峰會：自研Oryon CPU登陸手機、汽車丨驍龍8至尊版、驍龍至尊版汽車平臺

10月22日，高通舉行了2024驍龍峰會，正式推出了全新旗艦移動平臺——驍龍8至尊版。　　不只是全新命名那么簡單，驍龍8至尊版配備了下一代定制高通Oryon CPU，在Adren…

陳晨
1天前
高通史詩級驍龍上線，安蒙說時代變了，AI First的未來，是所有App都是“王牌應用”

　　從“無線通信公司”轉型為面向新一代AI處理時代的“連接計算公司”，在過去很長一段時間以來，都是高通標榜自身的主基調，而今年在夏威夷茂宜島如期舉行的驍龍峰會，話題正是從這一基調展…

陳晨
產經 1天前
補齊拼圖后，高通終于猛推“三端歸一”

當地時間10月20日下午，記者抵達美國夏威夷茂宜島，參加10月21日開啟的高通驍龍峰會。在峰會的前兩個主題日，高通在智能手機和汽車平臺拿出了三款驍龍Elite(至尊版)新品。其中最…

陳晨
產經 1天前
產經

國家能源集團攜手?？低曆邪l(fā)攻克融合光譜煤質快檢技術

首次實現新型煤質快檢技術在煤炭全產業(yè)鏈示范應用打造“在線測量+數字監(jiān)管”煤質管控新模式。 10月24日上午10點，在國家能源集團準能集團黑岱溝露天煤礦，安裝于準能選煤廠…

陳晨
1天前
官宣！中國移動云盤純血鴻蒙版上線

10月22日，華為正式發(fā)布了全新HarmonyOS NEXT。作為華為鴻蒙生態(tài)的先鋒力量，中國移動云盤早在HarmonyOS NEXT內測階段就已率先完成原生應用核心版本的開發(fā)，同…

陳晨
產經 1天前
跑分達308萬，Oryon CPU很能打！高通驍龍8至尊版性能實測

現在高通新一代旗艦移動平臺——驍龍8至尊版(驍龍8?Elite)已經發(fā)布，作為首款集成高通定制Oryon?CPU的旗艦移動平臺，其CPU、GPU以及AI性能均有大幅提升。　　簡單…

陳晨
產經 1天前

發(fā)表回復

登錄后才能評論

中國信通院發(fā)布“方升”大模型基準測試體系

相關推薦

發(fā)表回復