當(dāng)?shù)貢r間周日,有外媒報道了關(guān)于英偉達Blackwell處理器災(zāi)情的消息。英偉達新一代Blackwell處理器在高容量服務(wù)器機架中遭遇了嚴(yán)重的過熱問題。這一技術(shù)難題不僅導(dǎo)致了設(shè)計上的多次調(diào)整,還迫使項目延期,引發(fā)了谷歌、Meta和微軟等主要客戶對能否按計劃部署B(yǎng)lackwell服務(wù)器的深切擔(dān)憂。
據(jù)知情人士透露,Blackwell GPU是英偉達專為人工智能(AI)和高性能計算(HPC)領(lǐng)域設(shè)計的高端產(chǎn)品。然而,在配置72個處理器的服務(wù)器機架中,其過熱問題尤為突出。這類服務(wù)器機架的功耗極高,每個機架的功耗最高可達120千瓦。過熱問題不僅迫使英偉達多次修改機架設(shè)計,還限制了GPU的性能發(fā)揮,甚至存在損壞硬件的風(fēng)險。
面對這一技術(shù)挑戰(zhàn),英偉達迅速采取行動,要求供應(yīng)商調(diào)整機架設(shè)計,并與合作伙伴共同優(yōu)化散熱系統(tǒng)。盡管這種工程改進在大規(guī)模技術(shù)發(fā)布中屬于常規(guī)步驟,但無疑進一步推遲了產(chǎn)品的交付時間。英偉達發(fā)言人對此向路透社表示,公司正與云服務(wù)提供商緊密合作,設(shè)計調(diào)整是正常研發(fā)流程的一部分。英偉達希望通過這種合作,確保最終產(chǎn)品在性能和可靠性方面均能達到預(yù)期標(biāo)準(zhǔn),并盡快解決當(dāng)前的技術(shù)瓶頸。
從相關(guān)報道中獲悉,經(jīng)過修訂的Blackwell GPU于今年10月底才正式進入量產(chǎn)階段,預(yù)計最快將于明年1月底出貨。這一延期對于依賴英偉達GPU訓(xùn)練最強大AI模型的谷歌、Meta、微軟等科技巨頭而言,無疑將對其研發(fā)計劃和產(chǎn)品發(fā)布產(chǎn)生不可避免的影響。
值得一提的是,英偉達在今年3月曾展示了Blackwell芯片,并當(dāng)時表示計劃在第二季度發(fā)貨。然而,由于過熱問題的出現(xiàn),這一計劃不得不被迫推遲。
此次Blackwell處理器的過熱問題再次凸顯了高端芯片研發(fā)過程中的復(fù)雜性和不確定性。英偉達作為GPU領(lǐng)域的領(lǐng)軍企業(yè),將如何克服這一技術(shù)難題,并盡快將產(chǎn)品推向市場,值得業(yè)界密切關(guān)注。
原創(chuàng)文章,作者:AI,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/693613.html