中國信通院發(fā)布“方升”大模型基準測試體系

當前,大模型正引領著新一輪技術革命,大模型的全方位測評對于開發(fā)驗證、產品選型和能力提升都至關重要。但是,已有大模型基準測試以評估模型通用能力為主,存在評測方法不統(tǒng)一、評測方式單一、距離實際應用較遠等問題。因此,亟需建立一套面向產業(yè)應用的大模型基準測試體系,搭建全量測試題庫、自動測試平臺和高效測試方法,滿足大模型能力持續(xù)監(jiān)測和能力迭代的要求。

2023年12月24日,中國信息通信研究院(簡稱“中國信通院”)發(fā)布“方升”大模型評測體系,旨在建立業(yè)界大模型基準測試統(tǒng)一的“度量衡”?!胺缴睖y試體系涵蓋大模型基準測試的關鍵四要素,即測試指標、測試方法、測試數據集和測試工具,目前已形成《大規(guī)模預訓練模型基準測試-總體技術要求》標準。

1704158284942159.png

大模型基準測試體系“方升”

測試指標方面,“方升”測試體系主要針對行業(yè)、應用、通用和安全四個維度對大模型進行全面、客觀、統(tǒng)一的評估,為了加速大模型應用落地,重點強化了行業(yè)和應用導向能力的考查。

在測試方法方面,“方升”測試體系創(chuàng)新性提出自適應動態(tài)測試方法,從測試數據標簽化、測試題庫實時化、測試方案定制化、測試流程自動化四個方面全面提升大模型基準測試質量,重點解決大模型“刷榜”問題。

測試數據方面,“方升”測試體系搭建動態(tài)測試數據庫,涵蓋測試數據集107個,測試數據條數達到123萬,聯合產業(yè)界多家機構首次推出面向行業(yè)、通用、應用、安全領域的評測數據集6個。

測試框架與工具方面,中國信通院在構建超自動化測試平臺和智能化結果評估系統(tǒng)方面持續(xù)發(fā)力,探索解決國內外人工智能自動化測試流程中存在的“阻塞點”,全面提高測試效率。

“方升”大模型基準測試體系由中國信通院聯合北京智源研究院、認知智能全國重點實驗室和天津大學共同發(fā)布。此外,國網智能電網研究院、首都之窗、天津大學、中國電信研究院、中國聯通軟件研究院、華為、甲骨易、海天瑞聲、東方財富9家單位成為“方升”大模型基準測試首批合作伙伴。

大模型基準測試不僅是大模型應用開發(fā)的終點,更是驅動大模型能力提升的起點。中國信通院誠邀產學研用各方加入“方升”大模型基準測試體系,共同探索人工智能評測創(chuàng)新發(fā)展之路,建設科學、客觀、中立的人工智能評測基準,為全面提升中國人工智能評測水平貢獻力量!

1704158290907093.png

原創(chuàng)文章,作者:陳晨,如若轉載,請注明出處:http://2079x.cn/article/614134.html

陳晨陳晨管理團隊

相關推薦

發(fā)表回復

登錄后才能評論