一文揭秘:火山引擎云基礎(chǔ)設(shè)施如何支撐大模型應(yīng)用落地

2024年被普遍認(rèn)為是“大模型落地應(yīng)用元年”,而要讓大模型真正落地應(yīng)用到企業(yè)的生產(chǎn)環(huán)節(jié)中,推理能力至關(guān)重要。所謂“推理能力”,即大模型利用輸入的新數(shù)據(jù),一次性獲得正確結(jié)論的過程。除模型本身的設(shè)計外,還需要強(qiáng)大的硬件作為基礎(chǔ)。

在8月21日舉辦的2024火山引擎AI創(chuàng)新巡展上海站活動上,火山引擎云基礎(chǔ)產(chǎn)品負(fù)責(zé)人羅浩發(fā)表演講,介紹了火山引擎AI全棧云在算力升級、資源管理、性能和穩(wěn)定性等方面做出的努力,尤其是分享了針對大模型推理問題的解決方案。

羅浩表示,在彈性方面,與傳統(tǒng)的云原生任務(wù)相比,推理任務(wù),以及面向AI native應(yīng)用,由于其所對應(yīng)的底層資源池更加復(fù)雜,因此面臨的彈性問題也更加復(fù)雜。傳統(tǒng)的在線任務(wù)彈性,主要存在于CPU、內(nèi)存、存儲等方面,而AI native應(yīng)用的彈性問題,則涉及模型彈性、GPU彈性、緩存彈性,以及RAG、KV Cache等機(jī)制的彈性。

同時,由于底層支撐算力和包括數(shù)據(jù)庫系統(tǒng)在內(nèi)的存儲都發(fā)生了相應(yīng)的變化,也導(dǎo)致對應(yīng)的觀測體系和監(jiān)控體系出現(xiàn)不同的變化,帶來新的挑戰(zhàn)。

在具體應(yīng)對上,火山引擎首先在資源方面,面向不同的需求,提供了更多類型的多達(dá)幾百種計算實(shí)例,包括推理、訓(xùn)練以及不同規(guī)格推理和訓(xùn)練的實(shí)例類型,同時涵蓋CPU和GPU。

在選擇實(shí)例時,火山引擎應(yīng)用了自研的智能選型產(chǎn)品,當(dāng)面訓(xùn)練場景或推理場景時,在給定推理引擎,以及該推理引擎所對應(yīng)的模型時,都會給出更加適配的GPU或CPU實(shí)例。該工具也會自動探索模型參數(shù),包括推理引擎性能等,從而找到最佳匹配實(shí)例。

最后,結(jié)合整體資源調(diào)度體系,可以通過容器、虛擬機(jī)、Service等方式,滿足對資源的需求。

而在數(shù)據(jù)領(lǐng)域,目前在訓(xùn)練場景,最主要會通過TOS、CFS、VPFS支持大模型的訓(xùn)練和分發(fā),可以看到所有的存儲、數(shù)據(jù)庫等都在逐漸轉(zhuǎn)向高維化,提供了對應(yīng)的存儲和檢索能力。

圖片1.png

在數(shù)據(jù)安全方向,當(dāng)前的存儲數(shù)據(jù),已經(jīng)有了更多內(nèi)容屬性,企業(yè)和用戶對于數(shù)據(jù)存儲的安全性也更加在意。對此,火山引擎在基礎(chǔ)架構(gòu)層面提供全面的路審計能力,可通過專區(qū)形式,支持從物理機(jī)到交換機(jī),再到專屬云以及所有組件的對應(yīng)審計能力。

對此,羅浩以火山引擎與游戲公司沐瞳的具體合作為例給予了解釋。在對移動端游戲里出現(xiàn)的語言、行為進(jìn)行審計和審核時,大量用到各種各樣的云基礎(chǔ),以及包括大模型在內(nèi)的多種AI產(chǎn)品,而火山引擎做到了讓所有的產(chǎn)品使用都在同一朵云上,使其在整體調(diào)用過程當(dāng)中,不出現(xiàn)額外的流量成本,也使整體調(diào)用延時達(dá)到最優(yōu)化。

另外,在火山引擎與客戶“美圖”合作的案例中,在面對新年、元旦、情人節(jié)等流量高峰時,美圖通過火山引擎彈性的資源池,同時利用火山潮汐的算力,使得應(yīng)用整體使用GPU和CPU等云資源時,成本達(dá)到最優(yōu)化。

羅浩最后表示,未來火山引擎AI全棧云在算力、資源管理、性能及穩(wěn)定性等方面還將繼續(xù)探索,為AI應(yīng)用在各行業(yè)的落地,奠定更加堅(jiān)實(shí)的基礎(chǔ),為推動各行業(yè)智能化和數(shù)字化轉(zhuǎn)型的全新助力。

本文轉(zhuǎn)載自:,不代表科技訊之立場。原文鏈接:http://zl.yisouyifa.com/html/240826/1746201813522038.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論