H100 顯卡集群
-
Meta 訓(xùn)練 Llama 3 遭遇頻繁故障:16384 塊 H100 GPU 訓(xùn)練集群每 3 小時(shí)“罷工”一次
近日消息,Meta 發(fā)布的一份研究報(bào)告顯示,其用于訓(xùn)練 4050 億參數(shù)模型 Llama 3 的 16384 個(gè)英偉達(dá) H100 顯卡集群在 54 天內(nèi)出現(xiàn)了 419 次意外故障,平均每三小時(shí)就有一次。其中,一半以上的故障是由顯卡或其搭載的高帶寬內(nèi)存(HBM3)引起的。