Twitter閑置700個(gè)NVIDIA V100加速器引熱議:AI資源浪費(fèi)引反思

Twitter閑置700個(gè)NVIDIA V100加速器引熱議:AI資源浪費(fèi)引反思

近日,前Twitter員工、現(xiàn)Google DeepMind開(kāi)發(fā)者蒂姆·扎曼(Tim Zaman)在一次訪談中揭露了一個(gè)令人震驚的發(fā)現(xiàn):在Twitter被埃隆·馬斯克(Elon Musk)收購(gòu)的交易完成后不久,公司內(nèi)部竟存在一個(gè)由700個(gè)閑置的NVIDIA V100高性能GPU加速器組成的龐大集群。這一發(fā)現(xiàn)不僅揭示了Twitter在AI資源利用上的巨大浪費(fèi),也引發(fā)了業(yè)界對(duì)于AI基礎(chǔ)設(shè)施管理和優(yōu)化問(wèn)題的深入討論。

據(jù)扎曼透露,這些V100加速器自2017年發(fā)布以來(lái)便一直處于開(kāi)啟但未被充分利用的狀態(tài),直至2022年才被意外發(fā)現(xiàn)。當(dāng)時(shí),Twitter正計(jì)劃關(guān)閉部分?jǐn)?shù)據(jù)中心以節(jié)省成本,而這一發(fā)現(xiàn)無(wú)疑為這一決策增添了更多復(fù)雜性和遺憾。值得注意的是,這些V100加速器采用的是PCIe接口而非專(zhuān)為AI任務(wù)優(yōu)化的NVLink SXM2版本,進(jìn)一步凸顯了資源配置上的不合理。

Zaman的爆料迅速在科技界引起軒然大波,尤其是與近期關(guān)于構(gòu)建包含10萬(wàn)個(gè)NVIDIA H100加速器的xAI AI超級(jí)計(jì)算機(jī)的消息相呼應(yīng),更加凸顯了Twitter在AI資源管理和戰(zhàn)略規(guī)劃上的缺失。許多業(yè)內(nèi)人士表示,這種級(jí)別的資源浪費(fèi)不僅是對(duì)企業(yè)資產(chǎn)的巨大消耗,也是對(duì)全球AI發(fā)展?jié)摿Φ囊环N辜負(fù)。

在談及“AI Gigafactory”的概念時(shí),Zaman表達(dá)了他的擔(dān)憂(yōu)與見(jiàn)解。他認(rèn)為,在如此龐大的系統(tǒng)中部署和管理數(shù)十萬(wàn)個(gè)加速器將是一項(xiàng)前所未有的挑戰(zhàn),故障管理和系統(tǒng)穩(wěn)定性將成為首要問(wèn)題。他建議將系統(tǒng)劃分為多個(gè)獨(dú)立域,以大型集群的形式進(jìn)行設(shè)計(jì)和維護(hù),以更好地應(yīng)對(duì)潛在的風(fēng)險(xiǎn)和不確定性。

此外,Zaman還提出了一個(gè)值得深思的問(wèn)題:在構(gòu)建越來(lái)越大的人工智能培訓(xùn)系統(tǒng)時(shí),單個(gè)集群內(nèi)加速器的最大數(shù)量將受到哪些因素的限制?他認(rèn)為,這既包括技術(shù)層面的可預(yù)測(cè)限制,如數(shù)據(jù)傳輸瓶頸、能源供應(yīng)等,也包括不可預(yù)見(jiàn)的意外因素,如硬件故障、軟件兼容性問(wèn)題等。因此,如何在保證系統(tǒng)效率的同時(shí),確保系統(tǒng)的穩(wěn)定性和可擴(kuò)展性,將是未來(lái)AI基礎(chǔ)設(shè)施建設(shè)中的一大挑戰(zhàn)。

此次事件不僅為T(mén)witter敲響了警鐘,也為整個(gè)科技行業(yè)提供了一個(gè)寶貴的教訓(xùn):在追求技術(shù)創(chuàng)新和規(guī)模擴(kuò)張的同時(shí),必須高度重視資源的合理配置和有效利用,避免類(lèi)似的資源浪費(fèi)現(xiàn)象再次發(fā)生。

原創(chuàng)文章,作者:小丸子,如若轉(zhuǎn)載,請(qǐng)注明出處:http://2079x.cn/article/671504.html

小丸子的頭像小丸子認(rèn)證作者

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論