焱融科技CTO文濤:存儲(chǔ)穩(wěn)定性對(duì)于大模型訓(xùn)練至關(guān)重要

焱融科技CTO文濤:存儲(chǔ)穩(wěn)定性對(duì)于大模型訓(xùn)練至關(guān)重要

       今日 AI 領(lǐng)域的創(chuàng)業(yè)熱潮,宛如美國(guó) 19 世紀(jì)中期的淘金盛況。各大巨頭紛紛斥巨資投身于大模型的角逐之中,而初創(chuàng)企業(yè)在這個(gè)領(lǐng)域的投資門(mén)檻也從昔日的 5000 萬(wàn)美金飆升到了如今的 1 億美金。各路大佬“趨之若鶩”,“百模大戰(zhàn)”硝煙彌漫。然而在這股浪潮中,卻有這樣一家公司,以其獨(dú)特的視角和策略脫穎而出。早在 2018 年,他們便前瞻性地布局 AI 數(shù)據(jù)存儲(chǔ)賽道,為國(guó)內(nèi)眾多知名 AI 公司提供高性能數(shù)據(jù)存儲(chǔ)解決方案。

       張文濤,華中科技大學(xué)計(jì)算機(jī)專(zhuān)業(yè)碩士,畢業(yè)后一直在存儲(chǔ)領(lǐng)域深耕,先后在 IBM、金山云等國(guó)內(nèi)外巨頭,從事相關(guān)的技術(shù)研發(fā)工作,成功參與了多個(gè)云存儲(chǔ)產(chǎn)品的從 0 到 1 的落地與研發(fā)工作。期間,他還結(jié)識(shí)了一群懷揣夢(mèng)想、充滿(mǎn)激情的創(chuàng)業(yè)伙伴。正是這群志同道合、能力互補(bǔ)的精英,于 2016 年攜手創(chuàng)立了焱融科技,共同開(kāi)啟了一段嶄新的創(chuàng)業(yè)征程。

       無(wú)論是大廠精英還是創(chuàng)業(yè)公司 CTO,張文濤始終深耕存儲(chǔ)領(lǐng)域。他親眼見(jiàn)證了存儲(chǔ)技術(shù)的全貌與演進(jìn),對(duì)于大多數(shù)人而言較為模糊的存儲(chǔ)概念,在張文濤的眼中卻有著明確的演變脈絡(luò)。從早期 PC 機(jī)或服務(wù)器上簡(jiǎn)單插盤(pán)的單機(jī)存儲(chǔ),到 20 年前興起的集中式存儲(chǔ),再到 Google“GFS”論文引領(lǐng)的分布式存儲(chǔ)風(fēng)潮,以及近年來(lái) CV 場(chǎng)景下”小文件的高性能存儲(chǔ)”的興起,直至 NVMe SSD 普及、SSD 價(jià)格下降所帶來(lái)的高性能存儲(chǔ)革新……張文濤對(duì)這些歷程與掌故總能娓娓道來(lái),其專(zhuān)業(yè)知識(shí)與深厚熱愛(ài)顯而易見(jiàn)。

       加入焱融,深耕存儲(chǔ)領(lǐng)域新篇章文濤將他的專(zhuān)業(yè)與熱愛(ài)傾注于焱融科技,自公司創(chuàng)立之初,焱融科技便深耕軟件定義存儲(chǔ)領(lǐng)域,緊跟時(shí)代步伐,以前瞻性的戰(zhàn)略布局和深厚的技術(shù)積累為基石。公司從業(yè)務(wù)方向、存儲(chǔ)介質(zhì)、網(wǎng)絡(luò)介質(zhì)到中間配套框架等多個(gè)維度進(jìn)行了全面而深入的規(guī)劃和布局。同時(shí),焱融科技敏銳捕捉客戶(hù)的核心需求,在不同時(shí)期和階段,開(kāi)發(fā)并推出基于存儲(chǔ)底座的多樣化功能和特性,不斷推動(dòng)存儲(chǔ)領(lǐng)域的持續(xù)進(jìn)步與發(fā)展,為客戶(hù)創(chuàng)造更多價(jià)值。

       憑借焱融科技自身在文件存儲(chǔ)產(chǎn)品領(lǐng)域的深厚基因,公司成功將優(yōu)勢(shì)聚焦于 AI、高性能計(jì)算等場(chǎng)景。在不到十年的時(shí)間里,焱融科技已在基因測(cè)序、自動(dòng)駕駛、量化分析等 AI 領(lǐng)域積累了豐富的客戶(hù)資源和實(shí)踐經(jīng)驗(yàn)。這些成功案例不僅為相關(guān)領(lǐng)域提供了寶貴的參考方案,更使焱融科技成為國(guó)內(nèi)專(zhuān)注于 AI 存儲(chǔ)的技術(shù)先鋒,引領(lǐng)著行業(yè)的發(fā)展方向。

焱融科技CTO文濤:存儲(chǔ)穩(wěn)定性對(duì)于大模型訓(xùn)練至關(guān)重要

       隨著存儲(chǔ)與網(wǎng)絡(luò)技術(shù)的持續(xù)優(yōu)化,客戶(hù)對(duì)數(shù)據(jù)價(jià)值挖掘、存儲(chǔ)軟件效率、低延時(shí)及高性能特性的需求日益旺盛,全閃存儲(chǔ)逐漸取代機(jī)械硬盤(pán),成為市場(chǎng)主流。焱融科技敏銳洞察市場(chǎng)動(dòng)向,于 2022 年迅速推出企業(yè)級(jí)全閃分布式文件存儲(chǔ)一體機(jī)——追光 F8000X。該產(chǎn)品與包括 NVIDIA 在內(nèi)的國(guó)內(nèi)外頂尖算力設(shè)備廠商及高速網(wǎng)絡(luò)解決方案提供商開(kāi)展深度技術(shù)合作,成為國(guó)內(nèi)首批支持 Infiniband 網(wǎng)絡(luò)和英偉達(dá) GPU Direct Storage 技術(shù)的創(chuàng)新企業(yè)。在英偉達(dá)網(wǎng)絡(luò)中國(guó)實(shí)驗(yàn)室,追光 F8000X 成功完成與 NVIDIA 400Gbps NDR InfiniBand 的適配及性能調(diào)優(yōu),實(shí)現(xiàn)單 x86 架構(gòu)存儲(chǔ)節(jié)點(diǎn)高達(dá) 90GBps、300 萬(wàn) IOPS 的業(yè)內(nèi)頂尖性能,為行業(yè)樹(shù)立了嶄新的技術(shù)標(biāo)桿。

       焱融科技 AI 數(shù)據(jù)存儲(chǔ)”隱形冠軍”之路 在當(dāng)今技術(shù)圈,AI 無(wú)疑是熱議的焦點(diǎn)。我也就此契機(jī),向文濤請(qǐng)教了 AI 場(chǎng)景對(duì)數(shù)據(jù)存儲(chǔ)所帶來(lái)的影響。文濤從三個(gè)維度深入剖析了 AI 對(duì)存儲(chǔ)行業(yè)帶來(lái)的挑戰(zhàn),展現(xiàn)了他對(duì)行業(yè)的深刻洞察:

       1. AI 大模型對(duì)存儲(chǔ)提出了前所未有的挑戰(zhàn):在 CV 時(shí)代,單卡或單機(jī)多卡配置尚能輕松應(yīng)對(duì)小模型訓(xùn)練,但隨著大模型時(shí)代的到來(lái),訓(xùn)練模式已經(jīng)升級(jí)到多機(jī)多卡的集群分布方式。這不僅導(dǎo)致單位訓(xùn)練周期顯著增長(zhǎng),還伴隨著 GPU 節(jié)點(diǎn)軟硬件故障風(fēng)險(xiǎn),使訓(xùn)練任務(wù)中斷的可能性大增。為避免在重啟過(guò)程中損失過(guò)多,定期執(zhí)行 checkpoint 操作變得至關(guān)重要。這一過(guò)程中,需要在最短時(shí)間內(nèi)將龐大的模型加載至所有 GPU,這對(duì)存儲(chǔ)帶寬提出了巨大的挑戰(zhàn)。若帶寬不足,加載過(guò)程將耗時(shí)過(guò)長(zhǎng),嚴(yán)重影響整體訓(xùn)練效果,因此高效、穩(wěn)定的存儲(chǔ)系統(tǒng)成為了大模型訓(xùn)練的關(guān)鍵。

       2. 穩(wěn)定性對(duì)于大模型訓(xùn)練而言至關(guān)重要:一旦存儲(chǔ)穩(wěn)定性出現(xiàn)波動(dòng),大模型訓(xùn)練失敗的風(fēng)險(xiǎn)便會(huì)急劇上升。這要求存儲(chǔ)系統(tǒng)不僅要具備高性能,還要具備出色的穩(wěn)定性,以應(yīng)對(duì)大模型訓(xùn)練過(guò)程中的各種挑戰(zhàn)。因此,存儲(chǔ)行業(yè)的從業(yè)者需要不斷提升技術(shù)水平,確保存儲(chǔ)系統(tǒng)的穩(wěn)定性和可靠性。

       3. 焱融科技面臨著來(lái)自競(jìng)爭(zhēng)方面的挑戰(zhàn):隨著大模型研發(fā)的興起,一些公司可能會(huì)傾向于自建數(shù)據(jù)中心或自主采購(gòu) GPU 卡,以滿(mǎn)足其大規(guī)模模型的訓(xùn)練需求。然而,在英偉達(dá)卡受限、GPU 采購(gòu)受阻的情況下,他們可能會(huì)轉(zhuǎn)向?qū)嵙?qiáng)勁、擁有萬(wàn)卡規(guī)模的公有云進(jìn)行模型訓(xùn)練。國(guó)內(nèi)的一線供應(yīng)廠商大都提供類(lèi)似的服務(wù)和解決方案,這給焱融科技等尚在發(fā)展階段的創(chuàng)業(yè)公司帶來(lái)了巨大的競(jìng)爭(zhēng)壓力,焱融科技需要不斷創(chuàng)新、提升服務(wù)質(zhì)量和技術(shù)水平,以應(yīng)對(duì)激烈的市場(chǎng)競(jìng)爭(zhēng)。

       隨著 AI 技術(shù)的不斷進(jìn)步,大模型訓(xùn)練因其龐大的數(shù)據(jù)處理量和實(shí)時(shí)性要求,對(duì)存儲(chǔ)系統(tǒng)提出了更高的性能要求。焱融科技發(fā)現(xiàn)對(duì)大多數(shù)進(jìn)行 AI 模型訓(xùn)練的客戶(hù)而言,數(shù)據(jù)具有階段性熱點(diǎn)訪問(wèn)的特點(diǎn),超過(guò)一定時(shí)間后,80% 以上的數(shù)據(jù)逐步趨冷,焱融科技通過(guò)與頂尖大模型客戶(hù)緊密合作,創(chuàng)新性地提出了“智能分層”解決方案,客戶(hù)可根據(jù)策略定義冷熱數(shù)據(jù)層,冷數(shù)據(jù)自動(dòng)流動(dòng)至本地或公有云對(duì)象存儲(chǔ)中,向上仍然為業(yè)務(wù)提供標(biāo)準(zhǔn)的文件訪問(wèn)接口,數(shù)據(jù)在冷熱數(shù)據(jù)層之間流動(dòng)對(duì)業(yè)務(wù)完全透明。在保證熱層數(shù)據(jù)高性能的同時(shí),降低了數(shù)據(jù)存儲(chǔ)成本,提升了數(shù)據(jù)可靠性。

       大模型落地全流程中,不同階段往往采取不同的存儲(chǔ)類(lèi)型,如數(shù)據(jù)處理階段采用對(duì)象存儲(chǔ),大模型訓(xùn)練階段采用高性能的全閃分布式文件存儲(chǔ)。過(guò)往訓(xùn)練數(shù)據(jù)在不同階段的流動(dòng)往往通過(guò)手動(dòng)復(fù)制,等待時(shí)間較久。焱融科技提供 Dataload 智能數(shù)據(jù)加載功能,打通對(duì)象存儲(chǔ)與文件存儲(chǔ),一鍵實(shí)現(xiàn)跨存儲(chǔ)空間數(shù)據(jù)加載。如一鍵將公有云上的數(shù)據(jù)加載到全閃存儲(chǔ)中進(jìn)行訓(xùn)練,訓(xùn)練完成后又一鍵導(dǎo)出到對(duì)象存儲(chǔ)中。

焱融科技CTO文濤:存儲(chǔ)穩(wěn)定性對(duì)于大模型訓(xùn)練至關(guān)重要

圖:大模型場(chǎng)景下焱融全閃存儲(chǔ) F8000X 解決方案

       在國(guó)產(chǎn)化浪潮中,焱融科技也積極響應(yīng)國(guó)家號(hào)召,推動(dòng)國(guó)產(chǎn)化一體機(jī)的發(fā)展。張文濤提到,隨著國(guó)產(chǎn)技術(shù)生態(tài)的成熟,公司與國(guó)產(chǎn)服務(wù)器廠商緊密合作,致力于提供高性能的國(guó)產(chǎn)化存儲(chǔ)解決方案,以滿(mǎn)足國(guó)內(nèi)市場(chǎng)對(duì)國(guó)產(chǎn)化產(chǎn)品的需求。同時(shí),專(zhuān)業(yè)的測(cè)試團(tuán)隊(duì)和售后團(tuán)隊(duì)為客戶(hù)提供全方位的技術(shù)支持和服務(wù)保障,讓客戶(hù)無(wú)后顧之憂(yōu)。

       焱融科技持續(xù)技術(shù)創(chuàng)新

       領(lǐng)先存儲(chǔ)市場(chǎng)的奧秘 談及焱融科技的發(fā)展與成長(zhǎng),文濤總深感其成功之道在于技術(shù)創(chuàng)新。這種創(chuàng)新不僅源于公司內(nèi)部的研發(fā)實(shí)力,更得益于與客戶(hù)的緊密合作與共創(chuàng)。在文濤總看來(lái),焱融很多有競(jìng)爭(zhēng)力的功能和解決方案,都是和客戶(hù)一起共創(chuàng)構(gòu)建出來(lái)的。正是這種內(nèi)外結(jié)合、相互促進(jìn)的模式,使得焱融科技能夠保持領(lǐng)先地位,不斷邁向新的高峰。

       2019 年,焱融科技和國(guó)內(nèi)知名 AI 語(yǔ)音訓(xùn)練企業(yè)一起,沖擊全球 IO500 性能測(cè)試,進(jìn)入世界前六。在全閃存儲(chǔ)技術(shù)日益盛行的今天,盡管其價(jià)格已有所調(diào)整,但對(duì)于客戶(hù)而言,整體成本依然偏高,于是焱融科技憑借其獨(dú)樹(shù)一幟的技術(shù)方案,成功幫助客戶(hù)大幅降低了整個(gè)基礎(chǔ)設(shè)施的成本,為客戶(hù)帶來(lái)了實(shí)實(shí)在在的效益。

       再以焱融科技與某頭部自動(dòng)駕駛企業(yè)的合作為例。作為自動(dòng)駕駛領(lǐng)域的領(lǐng)軍企業(yè),該企業(yè)憑借先進(jìn)的發(fā)展理念和強(qiáng)大的多云數(shù)據(jù)解決方案能力,持續(xù)引領(lǐng)行業(yè)創(chuàng)新。然而,在 AI 訓(xùn)練過(guò)程中,他們面臨著從第三方購(gòu)買(mǎi)數(shù)據(jù)集后,數(shù)據(jù)從對(duì)象存儲(chǔ)到文件存儲(chǔ)的流轉(zhuǎn)問(wèn)題。焱融科技針對(duì)這一獨(dú)特場(chǎng)景特點(diǎn),與客戶(hù)緊密合作,共同研究并制定了一套高效、流暢的解決方案。通過(guò)技術(shù)創(chuàng)新和深度合作,這一數(shù)據(jù)流轉(zhuǎn)過(guò)程得以自動(dòng)化,無(wú)需人為干預(yù),大大提高了工作效率和數(shù)據(jù)處理的準(zhǔn)確性。

        焱融科技在深入理解客戶(hù)場(chǎng)景、需求的前提下,合作共創(chuàng)了其他一系列開(kāi)創(chuàng)性的業(yè)務(wù)解決方案。真正做到了“既能領(lǐng)先于市場(chǎng),又能和客戶(hù)一起成長(zhǎng)”的雙贏局面。

本文轉(zhuǎn)載自:,不代表科技訊之立場(chǎng)。原文鏈接:http://v.mrkbao.com/news/111202404251138295178233152.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論