政產(chǎn)學研大咖共話中國大模型語料庫的價值與挑戰(zhàn)

11月26日,在2023全球數(shù)商大會上,星環(huán)科技成功舉辦了數(shù)據(jù)要素市場與大模型語料庫論壇暨中國大模型語料數(shù)據(jù)聯(lián)盟開放日活動。

論壇上,中國大模型語料庫的價值與挑戰(zhàn)圓桌對話,由星環(huán)科技智能量化事業(yè)部總經(jīng)理曾晨光主持,上海市經(jīng)濟和信息化委員會信息化推進處干部薛威、復旦大學大數(shù)據(jù)學院副院長陽德青、上海財聯(lián)社技術總監(jiān)葉周、上海數(shù)交所技術開發(fā)高級經(jīng)理孫江,從主管機構、學界、數(shù)據(jù)機構、交易所視角共同探討中國大模型語料庫建設。

圖1.jpg

圓桌對話實錄

曾晨光(主持人):今年8月上海市發(fā)布了《立足數(shù)字經(jīng)濟新賽道推動數(shù)據(jù)要素產(chǎn)業(yè)創(chuàng)新發(fā)展行動方案(2023-2025年)》,獲得了非常高的呼聲,越來越多人關注數(shù)據(jù)要素尤其是語料庫、數(shù)據(jù)交易和數(shù)據(jù)牌照等一系列落地內(nèi)容??煞裰攸c介紹一下未來行動方案發(fā)力點以及上海的特色?

薛威:我們今年10月份正式對外發(fā)布了這部行動方案,一共有23條,也是落實國家《數(shù)據(jù)二十條》的具體舉措。我挑幾個具體的方向:

第一,構建產(chǎn)業(yè)的數(shù)據(jù)樞紐,面向一些產(chǎn)業(yè)集成度較高的領域,建設重點樞紐型平臺,比如電力、核能、新材料、集成電路、人工智能等領域,我們將會布局建設能夠連接整個產(chǎn)業(yè)鏈上下游所有數(shù)據(jù)要素資源的樞紐性平臺和機構。

第二,構建行業(yè)特色型的數(shù)據(jù)空間。這次大會特別把國際數(shù)據(jù)空間協(xié)會的外賓請到主論壇現(xiàn)場,介紹了他們相關的經(jīng)驗,我們希望在上海也針對比如金融、航運等特色領域,建設一批特色的行業(yè)數(shù)據(jù)空間。

第三,加快建設數(shù)據(jù)交易所。今天的數(shù)商大會就是數(shù)據(jù)交易所不斷提升能級的具體體現(xiàn),我們?yōu)榇蠹叶紭嫿艘恍┓浅S袑嵭Ш托袠I(yè)能級的平臺,希望大家同我們一起用好這些平臺的資源,一起推動上海數(shù)據(jù)要素產(chǎn)業(yè)的創(chuàng)新發(fā)展。

曾晨光(主持人):上海數(shù)據(jù)交易所發(fā)布了首款大模型應用-入場咨詢助手問答數(shù)字人,想請問站在上海數(shù)據(jù)交易所的視角,如何推動國內(nèi)語料庫的健康、高效、合規(guī)發(fā)展?

孫江:上海數(shù)據(jù)交易所的重要使命之一是提供給市場合規(guī)、高效、集約、低成本的數(shù)據(jù)流通交易基礎設施。要關注三點:數(shù)據(jù)要供得出、流得動、用得好。

我們在市經(jīng)信委領導下,在人工智能協(xié)會的倡導下,于9月份開設了語料庫的版塊。目前語料庫板塊掛牌了69款數(shù)據(jù)產(chǎn)品,包括也有部分網(wǎng)紅產(chǎn)品已經(jīng)進行了交易。

同時,在流得動方面也在國家工程實驗室的指導下,與梅宏院士的頂尖團隊構建鏈網(wǎng)融合數(shù)據(jù)交易技術創(chuàng)新方案、與鄔江興院士的頂尖團隊合作構建內(nèi)生可信交付框架體系。產(chǎn)業(yè)數(shù)據(jù)跨域融合平臺的落地與推廣也在有序的進行中,以數(shù)據(jù)空間的方式,發(fā)揮數(shù)據(jù)要素乘數(shù)效應,提升niDts數(shù)據(jù)交易平臺的效能。

用得好方面,前兩年上海數(shù)據(jù)交易所提出了“無合規(guī)不掛牌,無場景不交易”,針對大模型應用也是一樣的道理。具體來說就是基于垂直行業(yè)要解決的具體問題,從場景出發(fā)聚焦大模型能力的輸出,拉動供需雙方進行數(shù)據(jù)撮合,形成語料庫供應的產(chǎn)業(yè)鏈發(fā)展。

曾晨光(主持人):在專有領域的語料庫層面,財聯(lián)社本身是獲得巨大媒體資源的媒體平臺,同時在通用領域語料有很多貢獻,尤其是在金融領域的語料積累,據(jù)了解現(xiàn)在已經(jīng)開始儲備一些微調(diào)的指令和預訓練高質(zhì)量語料集,這些知識工程現(xiàn)在是什么進展?有什么最新的內(nèi)容可以與大家分享?

葉周:財聯(lián)社在語料這塊,除了前面提到的語料的分級分類,還有一塊是SFT,或者是其他一些數(shù)據(jù)。從另一個視角來看,廣義的數(shù)據(jù)可以分成兩大類,一種是Data in training,訓練時候用的語料;還有一種是Data in use,在使用場景中重點積累,具體的使用又可以細分為SFT,針對像金融領域,比如要寫一篇財經(jīng)的稿子,它的文風應該是怎么樣的,這種數(shù)據(jù)是在積累。還有一個是真正日常使用的,比如需要引用一些投研的觀點,或者做一些分析,通過向量查詢的方式來使用這些數(shù)據(jù)。還有一種隱蔽類型的數(shù)據(jù)就是我們的提示詞,這也是和星環(huán)科技在很多具體場景上積累的,比如像剛才提到的風控,也積累了一些提示詞,這幾塊都是目前我們正在投入積累的,也是發(fā)揮財聯(lián)社作為財經(jīng)媒體和數(shù)據(jù)供應商的優(yōu)勢。

曾晨光(主持人):目前知識圖譜和大模型結合有幾個論調(diào),有些人認為大模型已經(jīng)具有知識了無需知識圖譜,也有人認為知識圖譜可以有效補充大模型知識的精準度和廣泛性避免幻覺,同時也有人認為可以把知識圖譜訓練到大模型中去。請分享一下見解。

陽德青:我所在的研究領域,基本過去十年都是專注于知識圖譜的研究。大模型有很多知識,我們不懂的,大模型能回答。知識圖譜到底還需不需要,從專業(yè)角度來講,它們是有所不同的,各有優(yōu)劣,更好的方式是把這兩者結合起來。

具體談一談大模型和知識圖譜各自的優(yōu)劣勢。先說大模型,基于大規(guī)模的語料訓練,知識儲備比較豐富,其強大之處在于自然語言理解和生成能力。但對于一些預訓練過程中沒有碰到的,尤其垂直領域比較深的、比較難的問題答,如果硬要回答,就會出現(xiàn)我們所說的幻覺。

知識圖譜優(yōu)點在于其中的知識是正確的,知識以圖形式的存儲是其另一大優(yōu)點,可以用一些圖的算法進行高階推理,而且很多時候能保證推理出來的知識正確性,這就可以彌補大模型的缺點。尤其在一些長尾的垂直領域,如果因大模型缺乏垂直領域知識不能回答的,基于該領域的知識圖譜就能回答。

而且很多時候我們會發(fā)現(xiàn),一個問題換一種問法,大模型就不能問答了,或者稍微高階一些的推理大模型并不能實現(xiàn)。但知識圖譜因為有完備的、正確的知識,有友好的結構形式,可以實現(xiàn)推理的算法。使用大模型很重要一點就是評測,我們都知道,現(xiàn)在很多時候大模型靠的是人工專家的評測,成本很高。但有了知識圖譜來產(chǎn)生評測所需的標準答案,就能保證大模型評測的效果和對與錯,就能很正確的判定。

同樣利用大模型的優(yōu)勢,可以彌補知識圖譜的不足,例如幫助更新知識圖譜,甚至補全知識圖譜,讓知識圖譜質(zhì)量更高。之前對知識圖譜如果不采用一些自動化的方法主動更新當中的知識,它會過時,雖然以前的知識是正確的,但現(xiàn)在不一定正確。而大模型可以隨時隨地在補充新語料后進行預訓練,甚至通過強化學習人工的反饋,它可能掌握更多更新的知識,雖然有些知識可能會錯,但它新掌握的知識更多,而且是更及時的。這兩者是相輔相成的,并不是誰替代誰,誰淘汰誰的問題。

曾晨光(主持人):建立健全數(shù)據(jù)交易、數(shù)據(jù)跨境、數(shù)據(jù)確權等相關立法的頂層設計是數(shù)據(jù)要素市場化的基石,很多數(shù)商可能更加關注,如何將自己的數(shù)據(jù),或者結合公共數(shù)據(jù)平臺加工融合的數(shù)據(jù)進行商業(yè)化或市場化落地?

薛威:總體來講,所有在推進智能化、數(shù)據(jù)化的市場化工作中,第一個考慮的是應用場景。所以未來配置相關要素的模式也將是由場景牽引,第一就是需要什么樣的要素資源。我們在配置各種各樣的卡、算力等相關的資源。

第二項就是關于數(shù)據(jù)要素的配置,不光建設了數(shù)據(jù)交易所,也搭建了大模型數(shù)據(jù)語料聯(lián)盟,但需求和供給之間的配合實際是長期的,不能像以前其他商業(yè)化已經(jīng)比較成熟的領域,只要拿出清單來,市場上總能找到想要的資源。數(shù)據(jù)領域的磨合實際是一個深度的、以數(shù)據(jù)應用場景為牽引的相互交流的過程,我們特別希望手上有數(shù)據(jù)的機構,能夠和我們最一線的技術人員進行一定程度的溝通。特別是安全領域。

世界上淺網(wǎng)的數(shù)據(jù)只占了所有數(shù)據(jù)的5%,而95%的數(shù)據(jù)還在深網(wǎng)之中,甚至還在各個專家的腦袋中,所以這個方面仍然需要大量的專家,比如今天新加入的人民檢察院,檢察院的檢察官們、記者朋友、律師們腦子里的知識如何進行數(shù)據(jù)化,如何供給到大模型業(yè)態(tài)中去,是政府部門特別關注的內(nèi)容。

此外,我們在不斷推進一些法律法規(guī)和相關標準的建設,特別是針對于數(shù)據(jù)的三種產(chǎn)權,進入到大模型之后生成的結果,到底它的IP產(chǎn)權在誰手里面,是大家形成共識的一個過程。所以希望三個方面,我們政府部門和大家一道進行探索。

曾晨光(主持人):大模型和語料庫是一個天然的產(chǎn)業(yè)鏈上下游關系,關于新型供應鏈的打通,還有什么需要注意的地方?

孫江:當下基于數(shù)據(jù)流通的基礎設施已經(jīng)發(fā)生了本質(zhì)性的改變,從傳統(tǒng)的信息化基礎設施,轉變?yōu)閲@數(shù)據(jù)要素價值化的新型基礎設施。信息時代建立的是通道與節(jié)點,通過知識裂變產(chǎn)生價值。而在數(shù)據(jù)時代是圍繞數(shù)據(jù)本身,構建數(shù)據(jù)空間,加上算法、算力、網(wǎng)絡資源、安全設施。通過聚變形成規(guī)模價值效應,通過場景挖掘激發(fā)用數(shù)需求,通過工具與平臺釋放數(shù)據(jù)價值潛能。這也是數(shù)據(jù)作為生產(chǎn)要素的魅力所在。而模型也一樣,縱觀整個產(chǎn)業(yè),我認為模型有三類潛在的生態(tài)。

第一,語料庫運營商。從數(shù)據(jù)的生命周期來看,從采集、加工、存儲、開發(fā)、共享、流通與交易,再進一步是做數(shù)據(jù)標注、分類分級,做語料庫的加工。我稱之為DIKC模型,也這就是從海量數(shù)據(jù)(Data)中挖掘信息價值(Information),形成知識庫(Knowledge),再在知識庫之上形成面向需求的多級語料數(shù)庫(Corpus)。例如當下隨著大模型技術興起的數(shù)據(jù)標注產(chǎn)業(yè)。

第二,模型加工集成商。各種各樣小模型加大模型集成,去解決模型應用開發(fā)最后一公里的問題,需要這些廠商來參與。

第三,大模型的工具平臺?,F(xiàn)在孕育出一些LLMOps廠商,包括AWS、騰訊云、星環(huán)科技等,他們在進行多元異構的管理平臺建設,包括預訓練、語料庫加工處理、微調(diào)、最后的價值評估,這樣一些工具平臺也會應運而生。

曾晨光(主持人):有很多業(yè)內(nèi)人士很關心,通用領域的語料開源開放是被理解的,但垂直領域,比如像金融,私有的大模型和開源大模型都有,但私有的數(shù)據(jù)和開源的數(shù)據(jù)沒有人去論證過,它的商業(yè)價值如何體現(xiàn)?未來站在大模型生產(chǎn)要素、生產(chǎn)力、生產(chǎn)關系層面怎么看待其商業(yè)價值?

葉周:這個問題比較抽象,財聯(lián)社在內(nèi)容創(chuàng)作方面,幾個月前就已經(jīng)把大模型能力用在采編環(huán)節(jié),財聯(lián)社的生產(chǎn)就是生產(chǎn)內(nèi)容,首當其沖受到大模型的沖擊。

比如微軟的copilot輔助程序員寫代碼,會根據(jù)所寫的內(nèi)容自動補全一堆東西,如何把這種思維定式平行移植到財聯(lián)社編輯部里,這種模式還是以人為中心,小編或者記者也要休假、睡覺,就會錯過一些東西。有沒有可能完全屏蔽掉這種干擾,最終實現(xiàn)將源源不斷的素材從各個重要的渠道匯集過來,讓大模型直接生產(chǎn),24小時連續(xù)不間斷。在此情況下,編輯部可能在稿件生產(chǎn)環(huán)節(jié)壓根不需要人的參與,我給它起了個名字叫“黑燈編輯部”,就一個無情的寫稿機器不斷的生成稿件。

在這種新的視角下,就要重新考慮大模型生產(chǎn)要素、生產(chǎn)力、生產(chǎn)關系。我們也在摸索,以往那種生產(chǎn)力或者人類社會的生產(chǎn)力之下我們做了很多妥協(xié)和折中,形成了現(xiàn)在比較穩(wěn)定的生產(chǎn)關系,因為人的生產(chǎn)力是有限的,但是大模型的生產(chǎn)力目前來看遠遠沒到上限。如果還是用現(xiàn)有的這套生產(chǎn)關系去硬套新出來的生產(chǎn)力,那就好比是用前朝的劍來斬本朝的官。

曾晨光(主持人):最近剛好拜讀了陽教授的論文,其中一片論文今年發(fā)在NLP最頂尖會議ACL上,并奪得杰出論文獎。我看到論文中planning script就是利用大模型來實現(xiàn)復雜任務規(guī)劃的非常有意思,而且讓大模型具有認知智能中類比能力也是非常重要的,想請問這樣的技術未來的應用方向以及相關規(guī)劃數(shù)據(jù)集準備上是否有更大前景和方向?

陽德青:本來我們做這個工作只是想去評測一下大模型在完成比較高階的認知智能任務的能力,比如規(guī)劃能力。在此過程中發(fā)現(xiàn),大模型在回答很多問題,包括常識性問題的時候,因為掌握豐富的知識能做出回答,讓其做一些簡單的規(guī)劃任務,例如給出比較抽象的任務目標,讓其它產(chǎn)生完成任務的執(zhí)行腳本,它也能正常回答。但如果對目標增加復雜一點的約束條件,即完成帶約束目標的具體規(guī)劃任務的話,生成的腳本就缺點比較明顯了。比如要求寫出為糖尿病病人做蛋糕的執(zhí)行腳本,它產(chǎn)生的腳本中會有一步是要加糖,但糖尿病病人是不能吃糖的。

因此,我們在文中提出一個方案去改進大模型在這方面的能力,這篇論文能夠得到很多專家的認可還有一個很重要的原因是我們構建了相應的數(shù)據(jù)集。

要知道現(xiàn)在不是每個人、每個團隊、每個公司都用得起大模型,畢竟要花費不小的成本,很多時候只能使用規(guī)模相對小一點的模型。小模型的能力有缺陷,尤其是通用的學習能力,零樣本學習能力有欠缺的,不過有了我們這樣的數(shù)據(jù)集,對小模型進行訓練和指令微調(diào),會發(fā)現(xiàn)提升后也可以接近大模型,雖然達不到大模型那么優(yōu)秀的程度,但是夠用了。我們這篇論文里面做的工作就是提出了一套范式,為大模型和小模型在此類任務上的微調(diào)和評測生成質(zhì)量更高、更可信的數(shù)據(jù)集,它的價值在于此,我覺得這是我們工作的一個很重要的貢獻。

曾晨光(主持人):其實剛剛也提到了尤其垂直領域語料數(shù)據(jù)+小參數(shù)量大模型微調(diào)可以讓更多人使用成本低廉的AGI能力,尤其我也看到其實在美國有一些AGI獨角獸企業(yè),就是做垂直領域微調(diào)指令的。您覺得尤其是圍繞垂直領域語料數(shù)據(jù)未來發(fā)展格局如何?

陽德青:首先垂直領域構建的能夠訓練垂直領域大模型的有質(zhì)量的樣本要求還是挺高的,剛才也提到數(shù)據(jù)公有和私有的問題。首先,這些數(shù)據(jù)不一定已經(jīng)公開成為網(wǎng)頁文本擺在那里可供大家使用,很多專業(yè)領域的知識可能都在專家腦袋里面,沒有變成可見的語料。剛才也提到,很多訓練樣本是靠人工去標注,但是人力成本是很高,人力也是有限的,那就需要模型自動產(chǎn)生。模型雖然產(chǎn)生數(shù)據(jù)的速度很快,成本也比較低,但也不保證百分之百正確,而且大模型完成一些特定領域的任務要做垂直領域的指令微調(diào),這些數(shù)據(jù)哪里來?回答這個問題這可以和前面探討的第一個問題結合,可以依靠領域?qū)<医Y合現(xiàn)有的領域文檔資料,并采用一些模型算法利用垂直領域中已經(jīng)形成的領域知識圖譜,用人機協(xié)作的方式,讓人和小模型配合產(chǎn)生本領域的數(shù)據(jù)語料,去喂給大模型訓練或微調(diào),而且能保證數(shù)據(jù)量足夠、質(zhì)量夠高,這樣來訓練垂直領域大模型就可以擺脫沒有數(shù)據(jù),或者擺脫只能依靠人工來產(chǎn)生數(shù)據(jù)的缺點。

至于未來格局如何,現(xiàn)在我還提不敢斷言,但我剛才提的幾個方式應該是可行并能并存的,大模型數(shù)據(jù)語料的構建不能只靠機器,也不能只靠人,需要人機協(xié)作。

曾晨光(主持人):財聯(lián)社已經(jīng)率先實現(xiàn)了這樣的落地,包括在垂直領域建設語料庫的經(jīng)驗和方案。葉總作為數(shù)商代表,能不能給同行一些建議。

葉周:第一先趕緊用起來,這是毫無疑問的。我說的是真正的用起來,要真正把它用在生產(chǎn)環(huán)節(jié)中,這種情況下,才能真正持久的使用大模型,在大模型的使用中積累經(jīng)驗。財聯(lián)社因為用得相對比較早,也積累了一些經(jīng)驗,就數(shù)據(jù)而言,我們發(fā)現(xiàn)數(shù)據(jù)不是越多越好,很多數(shù)據(jù)用處不是特別大。比如炒股票,每天的K線高開低收,這是股票的幾個基本要素,5000個股票,一年200個交易日,每個交易日都有開盤價、最高價、最低價、成交量等,這個數(shù)據(jù)量很大,其中是沒有什么知識的,這種數(shù)據(jù)丟給大模型幾乎毫無用處。

什么是有用的?比如炒股的教材,有些技術面分析,像鉆石頂、雙尖底、矩形突破這些概念。你在網(wǎng)上一些論壇里面提到這些黑話,或者是雞頭頂、鵝頭頂這種技術類黑話,大模型是不知道的,你讓它自己總結也總結不出來的,這就是知識,這個知識就從一些教材中來。

所以我們現(xiàn)在正在摸索,如何把金融相關的教材作為語料投喂給大模型,我們最終還沒有看出效果的差異,只是方法的差異。但是從數(shù)據(jù)而言,哪些數(shù)據(jù)是有Knowledge的,哪些數(shù)據(jù)是沒有Knowledge的,這一點可以作為后續(xù)在大模型時代,無論數(shù)據(jù)供應商還是系統(tǒng)集成商,還是大模型應用者,我覺得這是比較有價值的判斷標準。

曾晨光(主持人):這個論壇是大模型語料庫的價值與挑戰(zhàn),尤其挑戰(zhàn)方面,還有哪些?對這些挑戰(zhàn)還有哪些建議?

孫江:未來通用大模型我認為會往集約型的方向去走,因為大模型技術作為一個工具,它最后是要和生產(chǎn)要素去結合,解決一些具體問題,賦能數(shù)字經(jīng)濟及實體經(jīng)濟。但是行業(yè)大模型不同,它本身具備了行業(yè)規(guī)模效應,如果能解決到具體問題、提升生產(chǎn)中的效果與效能,不管大模型也好,小模型也好,必將百花齊放。

既然有挑戰(zhàn)就有幾個困難點要克服。一是克服大模型幻覺的問題,因為要解決行業(yè)的具體問題,一定要讓大模型和行業(yè)語義進行對齊,特別是在政務領域、公共事業(yè)領域,去回答一些特定性問題,特別是法律法規(guī)的解讀與釋義,不能含糊不清。這就要與其他一些小模型結合,包括知識檢索、分類模型,實現(xiàn)精準化的回答。

二是數(shù)據(jù)要素化,數(shù)據(jù)要素化往前的階段是數(shù)字化、數(shù)據(jù)化,往下的階段是數(shù)智化。數(shù)字化轉型對很多企業(yè)還在發(fā)生和進行中,大量的企業(yè)數(shù)據(jù)還是停留在怎么把非結構化變成結構化,再里面提煉出有價值的知識,去形成一些行業(yè)的知識,最后賦能給行業(yè)上下游甚至整個社會。

三是智能問答,智能問答核心要解決的除了回答對錯以外,能不能提供情感關懷和情緒價值。我提的一個觀點就是大模型要加上元宇宙數(shù)字人,這也是我們上數(shù)所在開發(fā)的一款大模型應用—下個月要上線的”入場咨詢助手”,它就是一款結合大模型加上數(shù)字人,然后有情感表達,去提供行業(yè)知識、行業(yè)資訊,數(shù)據(jù)產(chǎn)品推薦、數(shù)商服務推薦、合規(guī)指引解讀的智能問答數(shù)字人。

四是要有一些評估標準。在數(shù)據(jù)領域里有合規(guī)評估、質(zhì)量評估、價值評估。其實對模型工具或者模型應用,一定要有一套行之有效并且行業(yè)共識的評估標準與規(guī)范。通過這樣一個指標體系去衡量模型應用的開發(fā)質(zhì)量,對效果進行評級。從而達到推動大模型生態(tài)高質(zhì)量發(fā)展。

曾晨光(主持人):相信這些挑戰(zhàn)也是語料聯(lián)盟未來要去克服的一些目標和方向,薛老師是否能給語料聯(lián)盟未來發(fā)展的方向給一些寄語或者期望?

薛威:語料聯(lián)盟最新的數(shù)字大概是42家成員機構,經(jīng)常有新的機構加入。我覺得還是要有更強的服務大模型的意識,同時我更加關注一個問題,我把它稱為“大模型的好孩子、壞孩子問題”,到底怎么培育出來一個好的大模型,它既知道世界的美好,也知道世界的險惡,這是我們長期想要考慮的問題。所以價值對齊不僅僅是告訴它什么是對的過程,也是不斷的博弈,去讓它自身的存在感始終保持警惕的思考。我特別同意陽教授的講法,知識圖譜的確是有必要的,它最大的必要性在于,它讓大模型可以知道有些東西不會,你可以選擇說我不會,而不是按照概率學去編造一套可能可以滿足用戶傾向的需求,我覺得這是所有大模型語料數(shù)據(jù)聯(lián)盟成員單位都應當持續(xù)思考的問題。

原創(chuàng)文章,作者:陳晨,如若轉載,請注明出處:http://2079x.cn/article/600197.html

陳晨陳晨管理團隊

相關推薦

發(fā)表回復

登錄后才能評論