Meta 訓(xùn)練 Llama 3 遭遇頻繁故障：16384 塊 H100 GPU 訓(xùn)練集群每 3 小時“罷工”一次

科技探索者 ? 2024年7月29日 15:24:00 ? AI

近日消息，Meta 發(fā)布的一份研究報告顯示，其用于訓(xùn)練 4050 億參數(shù)模型 Llama 3 的 16384 個英偉達 H100 顯卡集群在 54 天內(nèi)出現(xiàn)了 419 次意外故障，平均每三小時就有一次。其中，一半以上的故障是由顯卡或其搭載的高帶寬內(nèi)存（HBM3）引起的。

Meta 訓(xùn)練 Llama 3 遭遇頻繁故障：16384 塊 H100 GPU 訓(xùn)練集群每 3 小時“罷工”一次

由于系統(tǒng)規(guī)模巨大且任務(wù)高度同步，單個顯卡故障可能導(dǎo)致整個訓(xùn)練任務(wù)中斷，需要重新開始。盡管如此，Meta 團隊還是保持了 90% 以上的有效訓(xùn)練時間。

在為期 54 天的預(yù)訓(xùn)練中，共出現(xiàn)了 466 次工作中斷，其中 47 次是計劃中斷，419 次是意外中斷。計劃內(nèi)的中斷是由于自動化維護造成的，而意外的中斷則主要源于硬件問題。 GPU 問題是導(dǎo)致故障的主要原因，占意外中斷的 58.7%。其中只有三起事件需要大量人工干預(yù)，其余的由自動化管理。

在 419 個意外中斷中，148 個（30.1%）是由各種 GPU 故障（包括 NVLink 故障）引起的，而 72 個（17.2%）是由 GPU 的 HBM3 內(nèi)存故障引起的。有趣的是，54 天內(nèi)只有兩個 CPU 發(fā)生故障。41.3% 的意外中斷是由多種因素造成的，包括軟件錯誤、網(wǎng)絡(luò)電纜和網(wǎng)絡(luò)適配器。

為提高效率，Meta 團隊開發(fā)了一系列工具和優(yōu)化策略，包括縮短任務(wù)啟動和檢查點時間、利用 PyTorch 的 NCCL 飛行記錄器診斷性能問題、識別拖后顯卡等。此外，Meta 還關(guān)注到了環(huán)境因素的影響，如午間溫度波動對 GPU 性能的輕微影響，以及巨量 GPU 同時運行對數(shù)據(jù)中心電網(wǎng)的巨大壓力。

然而，隨著人工智能模型參數(shù)量的不斷增加，所需的計算資源也隨之?dāng)U大。以 xAI 計劃中的 10 萬塊 H100 顯卡集群為例，故障率可能會成倍增長，給未來的 AI 訓(xùn)練帶來更大的挑戰(zhàn)。

原創(chuàng)文章，作者：科技探索者，如若轉(zhuǎn)載，請注明出處：http://2079x.cn/article/670210.html

科技探索者管理團隊

0 0

產(chǎn)品

?英偉達RTX 5060系列顯卡發(fā)布：299美元起售

昨日晚，英偉達正式發(fā)布GeForce RTX 5060系列桌面顯卡，包含RTX 5060 8GB、RTX 5060 Ti 8GB及RTX 5060 Ti 16GB三款型號，起售價為…

AI
21小時前
新聞

?Meta重啟歐盟用戶數(shù)據(jù)訓(xùn)練AI 用戶可自主選擇退出

Meta公司本周一宣布，將恢復(fù)在歐盟地區(qū)使用Facebook和Instagram的公開內(nèi)容（如帖子、評論）訓(xùn)練其人工智能模型。此前因數(shù)據(jù)隱私爭議，該計劃曾被暫停近半年。Meta表示…

NEWS
1天前
新聞

谷歌安卓和 Pixel 手機團隊被曝裁員數(shù)百人

4 月 14 日，據(jù)報道，一位了解情況的人士透露，Alphabet 旗下的谷歌在其平臺和設(shè)備部門裁員數(shù)百人。報道稱，該部門的裁員，發(fā)生在谷歌 1 月份向該部門員工發(fā)出要約之后。一…

潮玩君
3天前
新聞

Meta 上線 Facebook 青少年賬戶 16 歲以下用戶開直播需父母同意

在全球范圍內(nèi)對社交媒體平臺未成年人保護措施日益關(guān)注的背景下，Meta公司于4月9日宣布了一項重要舉措——將其”青少年賬戶”功能從Instagram擴展至Fa…

潮玩君
2025年4月9日
商業(yè)

科技七姐妹遭“黑色48小時”：蘋果單日市值蒸發(fā)4159億美元

近日，美股經(jīng)歷劇烈震蕩，被稱為“七姐妹”的科技巨頭蘋果、英偉達、Meta、谷歌、微軟、亞馬遜、特斯拉在4月4日至5日兩個交易日內(nèi)市值蒸發(fā)1.5萬億美元。這場風(fēng)暴導(dǎo)致納斯達克綜合指數(shù)…

商業(yè)頭條
2025年4月7日
AI

Meta周日發(fā)布Llama 4，最強開源模型組隊殺入AI戰(zhàn)場

當(dāng)?shù)貢r間4月6日，Meta在硅谷周末的平靜中突然投下AI核彈。這家科技巨頭在官網(wǎng)及開發(fā)者社區(qū)同步上線Llama 4系列，包含Scout、Maverick兩款即時可用模型，以及預(yù)告中…

AI
2025年4月7日
AI

Meta發(fā)布Llama 4系列AI模型，包含三款

近日，科技領(lǐng)域迎來新動態(tài)，Meta正式發(fā)布旗下最新Llama 4系列AI模型，包含Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth三款…

AI
2025年4月6日
商業(yè)

美股集體收漲特斯拉漲近12%

美東時間3月24日，美國股市迎來強勢開局，三大基準指數(shù)集體收漲。道瓊斯工業(yè)平均指數(shù)勁升597.97點（+1.42%）至42583.32點，納斯達克綜合指數(shù)暴漲404.54點（+2.…

商業(yè)頭條
2025年3月25日
新聞

螞蟻集團AI訓(xùn)練大突破：國產(chǎn)芯片替代英偉達，成本直降20%

據(jù)彭博社援引知情人士消息，螞蟻集團正通過中國自主研發(fā)的芯片開發(fā)AI模型訓(xùn)練技術(shù)，成功將成本壓縮20%。其訓(xùn)練效果已與英偉達H800芯片相當(dāng)，標志著國產(chǎn)芯片在高端AI領(lǐng)域的重大突破?！?/p>

AI
2025年3月24日
產(chǎn)品

英偉達RTX 5060 Ti雙顯存版官宣：4月16日同步上市

北京時間3月22日，X平臺知名科技爆料人Алексей (@wxnod) 發(fā)布最新消息稱，英偉達已確定于?4月16日?正式發(fā)布GeForce RTX 5060 Ti桌面端顯卡，且?…

AI
2025年3月24日
商業(yè)

英偉達重金收購AI數(shù)據(jù)公司Gretel，生成式模型訓(xùn)練添“彈藥庫”

據(jù)外媒報道，全球AI芯片巨頭英偉達（Nvidia）近日完成對合成數(shù)據(jù)企業(yè)Gretel的收購。據(jù)《連線》雜志報道，本次交易金額達九位數(shù)美元，超過Gretel最新3.2億美元（約23.…

商業(yè)頭條
2025年3月21日
新聞

馬斯克旗下X平臺起訴印度政府，特斯拉入印談判陷微妙時刻

全球首富埃隆·馬斯克旗下社交媒體平臺X（原Twitter）與印度政府的沖突正式升級。據(jù)彭博社報道，X公司近日向印度卡納塔克邦高等法院提起訴訟，指控印度聯(lián)邦政府頻繁下達“武斷且反復(fù)無…

李小白
2025年3月21日
AI

DeepMind資深科學(xué)家離職創(chuàng)辦機器人公司Generalist AI，獲NVentures投資

谷歌DeepMind前機器人科學(xué)家Pete Florence近日宣布創(chuàng)立AI機器人公司Generalist AI，并已獲得英偉達旗下風(fēng)投機構(gòu)NVentures的戰(zhàn)略投資。這家初創(chuàng)公…

AI
2025年3月20日
AI

GTC 2025大會：機器人Blue亮相

在英偉達GTC 2025大會上，機器人Blue亮相。據(jù)了解，英偉達CEO黃仁勛在GTC 2025大會壓軸環(huán)節(jié)放出“大招”——聯(lián)合谷歌DeepMind、迪士尼共同發(fā)布名為Newton…

AI
2025年3月20日
產(chǎn)品

英偉達Nvidia宣布推出Blackwell Ultra和Rubin AI芯片

昨日，英偉達NVIDIA首席執(zhí)行官黃仁勛在年度GTC技術(shù)大會上宣布多項重磅產(chǎn)品規(guī)劃：Blackwell Ultra芯片系列將于今年下半年面世，下一代圖形處理器Vera Rubin預(yù)…

AI
2025年3月20日
新聞

黃仁勛再談DeepSeek：新型AI對算力的渴求只會更強

在英偉達年度技術(shù)盛會GTC 2025大會上，黃仁勛再談DeepSeek。公司創(chuàng)始人兼CEO黃仁勛在主題演講中直面行業(yè)爭議，針對近期科技圈熱議的”DeekSeek公司R1…

野游栗
2025年3月20日
AI

英偉達發(fā)布基于DeepSeek-R1 AI推理系統(tǒng) 創(chuàng)全球性能新紀錄

在3月19日舉行的NVIDIA GTC 2025技術(shù)大會上，英偉達正式推出基于DeepSeek-R1大模型的AI推理系統(tǒng)。官方披露，搭載八塊Blackwell架構(gòu)GPU的NVIDI…

AI
2025年3月19日
商業(yè)

英偉達GTC大會今日開幕！黃仁勛將發(fā)布新一代AI芯片，股價波動引關(guān)注

今日，英偉達（NVDA）年度GTC技術(shù)大會正式召開。此前一個交易日（3月17日），英偉達股價下跌1.8%，收于119.51美元，亞馬遜、Meta等科技股同步走低。不過，該公司股價上…

李小白
2025年3月18日
新聞

鴻海宣布英偉達GB200 AI服務(wù)器量產(chǎn)達標下半年啟動全球交付

鴻海精密工業(yè)股份有限公司董事長劉揚偉在3月14日舉行的法人說明會上正式宣布，英偉達GB200人工智能服務(wù)器已通過量產(chǎn)驗證，首批產(chǎn)品將于今年第三季度向客戶交付。他表示，經(jīng)過對全球12…

小科同學(xué)
2025年3月15日
AI

?英偉達官宣新一代AI芯片Rubin：以暗物質(zhì)先驅(qū)女科學(xué)家命名

據(jù)CNBC報道，英偉達CEO黃仁勛將于?3月19日GTC大會?正式發(fā)布新一代AI芯片平臺“Rubin”，其命名源自暗物質(zhì)研究先驅(qū)、美國天文學(xué)家薇拉·魯賓（Vera Rubin）。這…

AI
2025年3月14日