對(duì)話傳神副總裁藺偉:以“數(shù)推分離”解大模型落地困局

大模型技術(shù)正加速走向商業(yè)應(yīng)用。然而,真正將大模型落地企業(yè)場(chǎng)景的過(guò)程中,問(wèn)題遠(yuǎn)比想象中復(fù)雜。

目前,常見(jiàn)的主流大模型多采用數(shù)據(jù)與推理一體化的模式,這種模式難以持續(xù)不斷地實(shí)時(shí)學(xué)習(xí)企業(yè)業(yè)務(wù)知識(shí),是大模型商業(yè)化的核心痛點(diǎn)之一。一方面,企業(yè)的數(shù)據(jù)是訓(xùn)練模型成為行業(yè)專家的基礎(chǔ),但數(shù)據(jù)外流存在安全隱患,企業(yè)對(duì)公有云方案存疑;另一方面,企業(yè)自行訓(xùn)練大模型成本高昂,不僅需要大規(guī)模算力和人才支持,傳統(tǒng)的微調(diào)模式還可能削弱模型的通用能力,使得整體效益難以為繼。

OpenAI首席執(zhí)行官薩姆·奧特曼曾在麻省理工學(xué)院的一次對(duì)話中提到,GPT-4在推理速度、算力成本等方面存在瓶頸,GPT-5將嘗試“數(shù)據(jù)與推理分離”的新策略。面對(duì)相似的問(wèn)題,中國(guó)企業(yè)同樣在尋找可行路徑。

傳神語(yǔ)聯(lián)以“雙網(wǎng)絡(luò)架構(gòu)”為核心,推出了“數(shù)推分離”大模型技術(shù)。用副總裁藺偉的話來(lái)說(shuō),這種架構(gòu)好比“兩個(gè)協(xié)同聯(lián)動(dòng)的大腦”:一個(gè)負(fù)責(zé)學(xué)習(xí)客戶的數(shù)據(jù),確保動(dòng)態(tài)管理和迭代訓(xùn)練;另一個(gè)作為預(yù)訓(xùn)練的推理網(wǎng)絡(luò),專注于高效的推理和泛化能力。

不同于主流的技術(shù)路線,“數(shù)推分離”大模型不再一味追求大參數(shù)、海量數(shù)據(jù)的暴力增長(zhǎng),而是通過(guò)算法和架構(gòu)的優(yōu)化,讓企業(yè)以更低成本實(shí)現(xiàn)更高效的大模型能力。身處百模大戰(zhàn)中,傳神語(yǔ)聯(lián)為什么走向了一條與主流路徑不同的技術(shù)路線?又憑什么能在這條與眾不同的路上實(shí)現(xiàn)突破?(袁寧)

以下為《網(wǎng)易科技》與傳神語(yǔ)聯(lián)副總裁藺偉的交流,內(nèi)容經(jīng)編輯整理。

網(wǎng)易科技:傳神語(yǔ)聯(lián)相比其他大模型公司,技術(shù)優(yōu)勢(shì)體現(xiàn)在哪里?

藺偉: 我們的技術(shù)優(yōu)勢(shì)主要體現(xiàn)在以下幾點(diǎn):

一是雙網(wǎng)絡(luò)架構(gòu):傳統(tǒng)大模型通常采用單網(wǎng)絡(luò)架構(gòu),將預(yù)訓(xùn)練網(wǎng)絡(luò)與用戶數(shù)據(jù)網(wǎng)絡(luò)混合在一起。這種方式在處理用戶動(dòng)態(tài)數(shù)據(jù)時(shí)效率較低,同時(shí)可能導(dǎo)致基礎(chǔ)網(wǎng)絡(luò)退化。我們創(chuàng)新性地將兩者分離,用戶數(shù)據(jù)通過(guò)獨(dú)立的網(wǎng)絡(luò)處理,既能快速適應(yīng)企業(yè)知識(shí)更新,又避免影響基礎(chǔ)網(wǎng)絡(luò)的性能和通用性。

二是高效的智慧轉(zhuǎn)化能力:我們的算法特別注重?cái)?shù)據(jù)向智慧的轉(zhuǎn)化能力。簡(jiǎn)單來(lái)說(shuō),相同的數(shù)據(jù)量,我們的模型能提煉出更高密度的知識(shí)和邏輯,而不是僅堆積冗余數(shù)據(jù)。

三是全棧自主研發(fā):我們團(tuán)隊(duì)從底層算法庫(kù)到框架完全自主研發(fā),這讓我們?cè)谡{(diào)整模型結(jié)構(gòu)、優(yōu)化算法時(shí)擁有極高的靈活性。相比于依賴開(kāi)源框架的企業(yè),我們可以更快地響應(yīng)企業(yè)需求,提供定制化解決方案。

網(wǎng)易科技:傳神語(yǔ)聯(lián)為什么會(huì)走向一條與主流方向不同的技術(shù)路線?

藺偉:回答這個(gè)問(wèn)題,我們需要先理解不同公司背景的差異。以O(shè)penAI為例,它本質(zhì)上是一個(gè)科研機(jī)構(gòu),而非盈利機(jī)構(gòu)。從一開(kāi)始,OpenAI的目標(biāo)就是專注于前沿技術(shù)的探索,背后有充足的資金和資源支持。它無(wú)需考慮商業(yè)化帶來(lái)的盈利壓力,可以采取‘暴力美學(xué)’的方式,不計(jì)成本地追求技術(shù)上的極致。

對(duì)傳神語(yǔ)聯(lián)而言,我們的資源有限,必須從一開(kāi)始就注重效率和可行性。我們的目標(biāo)是用更低的成本實(shí)現(xiàn)同樣的智能效果,因此在技術(shù)選擇上,我們更加注重算法優(yōu)化和架構(gòu)創(chuàng)新,而非單純依靠堆算力和擴(kuò)參數(shù)規(guī)模。我們清楚地計(jì)算過(guò)技術(shù)與商業(yè)化之間的賬,明白只有在有限資源的情況下找到一條獨(dú)特的路徑,才能實(shí)現(xiàn)可持續(xù)發(fā)展。

這種思路使我們走上了與OpenAI不同的技術(shù)路徑。這也解釋了為什么中國(guó)的大型科技公司,如華為和阿里巴巴,可以嘗試類似OpenAI的路徑,而對(duì)于像傳神語(yǔ)聯(lián)這樣的創(chuàng)業(yè)公司來(lái)說(shuō),我們必須兼顧技術(shù)路徑和商業(yè)化需求,找到二者的平衡點(diǎn)。因?yàn)楸M管從技術(shù)角度看,“暴力美學(xué)”是一條捷徑,但從商業(yè)角度,它卻是一條困難重重的道路。這也是為什么我們能夠在技術(shù)上走出一條獨(dú)特道路的原因。

網(wǎng)易科技:同樣的技術(shù)路線還有別的企業(yè)在做嗎?

藺偉:在美國(guó),已經(jīng)有不少企業(yè)在探索類似的基于非標(biāo)準(zhǔn)Transformer架構(gòu)的小參數(shù)模型。比如,微軟正在研發(fā)自己的模型Phi-3,這個(gè)模型在Transformer架構(gòu)基礎(chǔ)上做了優(yōu)化與創(chuàng)新。此外,還有像‘曼巴’(Mamba)這樣的新興技術(shù),也在嘗試不同的路徑,避免完全依賴當(dāng)前主流的架構(gòu)設(shè)計(jì)。

我覺(jué)得對(duì)于算法架構(gòu)的優(yōu)化或探索,是行業(yè)發(fā)展的必然趨勢(shì)。從長(zhǎng)遠(yuǎn)來(lái)看,無(wú)論是出于降低成本的需求,還是提升模型效率的考慮,大模型技術(shù)的創(chuàng)新都會(huì)不斷深入。即便是OpenAI,未來(lái)可能也會(huì)調(diào)整其現(xiàn)有的架構(gòu),嘗試更加高效和低成本的技術(shù)路線。

網(wǎng)易科技:能否介紹一下傳神語(yǔ)聯(lián)的核心技術(shù)團(tuán)隊(duì)?

藺偉: 自公司創(chuàng)立以來(lái),傳神就選擇了國(guó)產(chǎn)原創(chuàng)這條路。我們的核心技術(shù)團(tuán)隊(duì)也專注在AI技術(shù)領(lǐng)域,他們主要專注于重構(gòu)和優(yōu)化大模型算法的基礎(chǔ)架構(gòu),曾經(jīng)參與過(guò)中國(guó)第一代指紋識(shí)別算法的開(kāi)發(fā)。之后他們將目光轉(zhuǎn)向自然語(yǔ)言處理,并在傳神語(yǔ)聯(lián)的平臺(tái)上不斷創(chuàng)新。

網(wǎng)易科技:如果算生意賬的話,對(duì)于企業(yè)而言,token成本其實(shí)一直是在下降的,這方面我們有優(yōu)勢(shì)嗎?

藺偉:那是公有云,我認(rèn)為絕大部分央國(guó)企幾乎不會(huì)用公有云或API的方式,一定是私有部署。因?yàn)樗胁渴鸲家紤]安全的問(wèn)題,中小企業(yè)肯定不是我們的市場(chǎng),我們還是做中大型企業(yè)的思維。

網(wǎng)易科技:傳神語(yǔ)聯(lián)的商業(yè)模式是怎樣的?

藺偉: 目前主要還是通過(guò)大客戶進(jìn)行私有云部署的模式,為他們提供知識(shí)管理相關(guān)的解決方案。

網(wǎng)易科技:這部分市場(chǎng)有多大?

藺偉:我們可以類比中國(guó)的計(jì)算機(jī)市場(chǎng)或服務(wù)器市場(chǎng)。服務(wù)器大多是企業(yè)直接采購(gòu)用于內(nèi)部部署,而不是依賴IDC(互聯(lián)網(wǎng)數(shù)據(jù)中心)或公有云。類似地,大模型市場(chǎng)也分為兩部分:一部分是面向公有云服務(wù)的市場(chǎng),另一部分是企業(yè)私有化部署的市場(chǎng)。

我們專注的是企業(yè)私有化部署的領(lǐng)域,至少有數(shù)百億的潛力空間,能夠容納許多公司在其中找到定位。

網(wǎng)易科技:您怎么看待模型層“贏家通吃”的觀點(diǎn)?

藺偉: 我不認(rèn)同這種觀點(diǎn)。大模型并不像互聯(lián)網(wǎng)平臺(tái)那樣具有網(wǎng)絡(luò)效應(yīng),其本質(zhì)更接近于計(jì)算機(jī)行業(yè)。即便是同一行業(yè)的不同企業(yè),其對(duì)模型的需求也千差萬(wàn)別。未來(lái)的大模型市場(chǎng)不會(huì)是一家獨(dú)大的局面,而是多種模型共存,分別服務(wù)于不同的場(chǎng)景和需求。

網(wǎng)易科技:傳神語(yǔ)聯(lián)2024年主要在做什么?明年的重點(diǎn)事項(xiàng)是什么?

藺偉:我們此前主要在做的就是把我們雙網(wǎng)這個(gè)架構(gòu)給做起來(lái)了,我們拋棄了做參數(shù)這件事情,選擇了這條道路。2025年是AI大模型步入企業(yè)應(yīng)用落地的關(guān)鍵時(shí)期。明年主要是把它兌現(xiàn),變成產(chǎn)品,實(shí)現(xiàn)商業(yè)化。未來(lái),傳神也會(huì)更加重視對(duì)模型“智慧”的深度挖掘,聚焦持續(xù)實(shí)時(shí)學(xué)習(xí)客戶數(shù)據(jù)的能力,通過(guò)數(shù)推分離技術(shù),賦能企業(yè)大模型落地應(yīng)用,并展現(xiàn)更多元的商業(yè)新范式。

本文轉(zhuǎn)載自:,不代表科技訊之立場(chǎng)。原文鏈接:https://www.163.com/tech/article/JKNS5NR100098IEO.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論