Meta 訓(xùn)練 Llama 3 遭遇頻繁故障英偉達(dá)GPU真的在拖后腿嗎？

科技探索者 ? 2024年7月29日 19:21:21 ? AI

近日，Meta發(fā)布了一份詳細(xì)的研究報(bào)告，揭示了在訓(xùn)練Llama 3 405B參數(shù)模型過(guò)程中面臨的重大挑戰(zhàn)。該系統(tǒng)在包含16384個(gè)Nvidia H100 GPU的集群上運(yùn)行，在54天的訓(xùn)練期間，經(jīng)歷了419次意外故障，平均每三個(gè)小時(shí)發(fā)生一次。這些故障中的一半以上歸因于GPU及其高帶寬內(nèi)存（HBM3）。

Meta 訓(xùn)練 Llama 3 遭遇頻繁故障英偉達(dá)GPU真的在拖后腿嗎？

什么是Llama 3.1？深度解析Llama 3.1研發(fā)思路

Meta剛剛發(fā)布開(kāi)源Llama 3.1雖然自帶論文，但依舊激起了廣大網(wǎng)友強(qiáng)烈的好奇心和求知欲。Llama 3.1都使用了哪些數(shù)據(jù)？其中有多少合成數(shù)據(jù)？為什么不使用MoE架構(gòu)？后訓(xùn)練與RLHF流程是如何進(jìn)行的？模型評(píng)估是如何進(jìn)行的？我們什么時(shí)候可以見(jiàn)到Llama 4？Meta是否會(huì)發(fā)展agent？

LLM的參數(shù)規(guī)模選擇需要考慮多種因素，包括scaling law、訓(xùn)練時(shí)間、GPU和硬件的約束等等。不僅要考慮Meta所用的硬件，還要考慮整個(gè)AI社區(qū)的不同GPU型號(hào)和顯存大小。此外，目前廣泛應(yīng)用于推理階段的量化技術(shù)也會(huì)影響推理和訓(xùn)練/微調(diào)成本的比重。

在Scaling Law和訓(xùn)練token總量的限制內(nèi)，進(jìn)行了一些權(quán)衡，找到了一個(gè)有合適推理效率的平衡點(diǎn)。之所以做到405B這么大規(guī)模，一個(gè)真正與GPT-4比肩的開(kāi)源模型。雖然目前還沒(méi)有完全達(dá)到目標(biāo)，但差距正在逐漸縮小。下一代模型將繼續(xù)擴(kuò)展。

Scaling Law主要關(guān)注模型權(quán)重和訓(xùn)練量。Chinchilla論文強(qiáng)調(diào)了訓(xùn)練數(shù)據(jù)token總量的重要性，認(rèn)為在有限算力前提下，存在一個(gè)模型參數(shù)量和訓(xùn)練token數(shù)的最佳比率。

但是，Meta希望發(fā)布的旗艦?zāi)Ｐ托枰叩耐评硇?，因此選擇增加訓(xùn)練的token數(shù)和訓(xùn)練時(shí)長(zhǎng)，讓模型達(dá)到“過(guò)度訓(xùn)練”的狀態(tài)。我們希望模型有更好的推理表現(xiàn)，從而更多地應(yīng)用于開(kāi)源社區(qū)，因此需要做出一些超越Chinchilla定律的選擇。

相比Llama 2，Llama 3的架構(gòu)沒(méi)有太多變化，但在擴(kuò)展數(shù)據(jù)的規(guī)模和質(zhì)量方面作出了很多努力，數(shù)據(jù)集從2T token增加到15T token。

目前的模型研發(fā)有一個(gè)趨勢(shì)，即針對(duì)基準(zhǔn)分?jǐn)?shù)進(jìn)行模型的后訓(xùn)練改進(jìn)。模型評(píng)估是一個(gè)開(kāi)放的研究問(wèn)題，目前還沒(méi)有很好的答案。當(dāng)試圖提升模型在某個(gè)基準(zhǔn)上的分?jǐn)?shù)時(shí)，可能會(huì)存在過(guò)擬合，分?jǐn)?shù)提升未必能遷移成為相似的能力。Meta已經(jīng)在6月開(kāi)始訓(xùn)練Llama 4模型，重點(diǎn)可能?chē)@agent技術(shù)，并且已經(jīng)在Toolformer等agent工具上進(jìn)行了一些工作。

Llama 3訓(xùn)練任務(wù)為什么會(huì)多次遭遇故障？

由于Llama 3訓(xùn)練任務(wù)的規(guī)模龐大且高度同步，單個(gè)GPU的故障會(huì)導(dǎo)致整個(gè)訓(xùn)練過(guò)程中斷，必須重新啟動(dòng)。在419次意外故障中，58.7%的故障與GPU相關(guān)，具體包括NVLink等各種GPU故障和HBM3內(nèi)存故障。這種情況并不意外，因?yàn)镹vidia的H100 GPU消耗約700W并承受大量熱應(yīng)力。盡管出現(xiàn)了大量的故障，但只有三起事件需要顯著的人工干預(yù)，其余的問(wèn)題均能由自動(dòng)化處理。

盡管存在這些問(wèn)題，Llama 3團(tuán)隊(duì)通過(guò)支持自動(dòng)化集群維護(hù)，實(shí)現(xiàn)了超過(guò)90%的有效訓(xùn)練時(shí)間（有效訓(xùn)練時(shí)間是指實(shí)際用于有用訓(xùn)練的時(shí)間與經(jīng)過(guò)時(shí)間的比例）。Meta開(kāi)發(fā)了多種工具和優(yōu)化策略，包括減少任務(wù)啟動(dòng)和檢查點(diǎn)時(shí)間、廣泛使用PyTorch內(nèi)置的NCCL飛行記錄器，以及識(shí)別滯后的GPU。其中，NCCLX在故障檢測(cè)和定位方面發(fā)揮了至關(guān)重要的作用，尤其是對(duì)于NVLink和RoCE相關(guān)問(wèn)題。

PyTorch的NCCL飛行記錄器能夠?qū)⒓w元數(shù)據(jù)和堆棧跟蹤記錄到環(huán)形緩沖區(qū)中，從而在大規(guī)模情況下快速診斷和解決掛起和性能問(wèn)題。NCCLX通過(guò)與PyTorch的緊密協(xié)同設(shè)計(jì)，提高了故障檢測(cè)和定位的速度和準(zhǔn)確性，允許PyTorch訪問(wèn)NCCLX的內(nèi)部狀態(tài)并跟蹤相關(guān)信息。

訓(xùn)練過(guò)程中，成千上萬(wàn)的GPU可能同時(shí)增加或減少功耗，例如等待檢查點(diǎn)完成或集體通信結(jié)束，或整個(gè)訓(xùn)練任務(wù)的啟動(dòng)或關(guān)閉。這會(huì)導(dǎo)致數(shù)據(jù)中心的功耗瞬時(shí)波動(dòng)達(dá)到幾十兆瓦的數(shù)量級(jí)，可能使電網(wǎng)不堪重負(fù)。Meta必須確保其數(shù)據(jù)中心有足夠的電力，以維持Llama 3 405B模型及未來(lái)更大規(guī)模模型的正常運(yùn)轉(zhuǎn)。

Meta還注意到，環(huán)境因素會(huì)影響大規(guī)模訓(xùn)練性能。Llama 3 405B訓(xùn)練期間，每天中午因溫度較高影響了GPU的動(dòng)態(tài)電壓和頻率調(diào)整，導(dǎo)致吞吐量波動(dòng)1-2%。盡管這不是大問(wèn)題，但它揭示了溫度變化對(duì)GPU性能的潛在影響。

考慮到16384個(gè)H100 GPU的集群在54天內(nèi)經(jīng)歷了419次意外故障，平均每24小時(shí)7.76次，xAI的孟菲斯超級(jí)計(jì)算機(jī)集群（配備10萬(wàn)個(gè)H100 GPU）可能會(huì)面臨更高的故障率。埃隆·馬斯克（Elon Musk）最近在社交平臺(tái)上宣布啟動(dòng)了“世界上最強(qiáng)大的人工智能訓(xùn)練集群”，預(yù)計(jì)在今年12月前創(chuàng)建“世界上所有指標(biāo)最強(qiáng)大的人工智能”。根據(jù)GPU規(guī)模比例，xAI的孟菲斯超級(jí)計(jì)算機(jī)集群可能會(huì)面臨更多的故障和挑戰(zhàn)。

隨著人工智能模型參數(shù)量的不斷增加，所需的計(jì)算資源也隨之?dāng)U大。以 xAI 計(jì)劃中的 10 萬(wàn)塊 H100 顯卡集群為例，故障率可能會(huì)成倍增長(zhǎng)，給未來(lái)的 AI 訓(xùn)練帶來(lái)更大的挑戰(zhàn)。盡管挑戰(zhàn)重重，Meta通過(guò)開(kāi)發(fā)和應(yīng)用多種技術(shù)和優(yōu)化策略，展示了在大規(guī)模人工智能訓(xùn)練中克服故障、提升效率的能力。未來(lái)，隨著人工智能模型參數(shù)量的不斷增加，計(jì)算資源需求也將持續(xù)增長(zhǎng)。Meta的經(jīng)驗(yàn)為業(yè)界提供了寶貴的參考，也為未來(lái)更大規(guī)模模型的訓(xùn)練奠定了基礎(chǔ)。

原創(chuàng)文章，作者：科技探索者，如若轉(zhuǎn)載，請(qǐng)注明出處：http://2079x.cn/article/670512.html

科技探索者管理團(tuán)隊(duì)

0 0

新聞

?Instagram CEO披露競(jìng)爭(zhēng)內(nèi)幕：TikTok曾致美區(qū)用戶時(shí)長(zhǎng)暴跌23%

當(dāng)?shù)貢r(shí)間5月8日，美國(guó)聯(lián)邦貿(mào)易委員會(huì)（FTC）訴Meta反壟斷案庭審中，Instagram首席執(zhí)行官亞當(dāng)·莫塞里提交關(guān)鍵證詞，首度披露2018-2020年期間與TikTok競(jìng)爭(zhēng)的核…

net
1天前
商業(yè)

Meta Q1虛擬現(xiàn)實(shí)業(yè)務(wù)營(yíng)收下滑6% 雷朋聯(lián)名眼鏡熱銷(xiāo)難掩42億美元虧損

Meta公司近日公布旗下虛擬現(xiàn)實(shí)部門(mén)Reality Labs 2025年第一季度財(cái)報(bào)，該部門(mén)營(yíng)收為4.12億美元（約29.86億元人民幣），較去年同期4.4億美元下降約6%，虧損額…

商業(yè)頭條
5天前
新聞

日本將Meta、TikTok等五巨頭被納入強(qiáng)監(jiān)管

日本總務(wù)省4月30日正式宣布，將谷歌、LINE雅虎、Meta、TikTok及X（原Twitter）五家跨國(guó)互聯(lián)網(wǎng)企業(yè)納入《信息流通平臺(tái)對(duì)策法》監(jiān)管體系。該法案自4月1日生效以來(lái)首次…

好奇寶寶
2025年5月3日
新聞

Meta旗下Threads全球廣告版圖擴(kuò)張：Advantage廣告系統(tǒng)默認(rèn)覆蓋

近日，Instagram負(fù)責(zé)人Adam Mosseri通過(guò)Threads官方賬號(hào)宣布，該社交平臺(tái)將全面擴(kuò)大廣告服務(wù)范圍。即日起，Meta旗下Advantage廣告投放系統(tǒng)新增&#8…

校草
2025年4月25日
AI

OpenAI計(jì)劃開(kāi)源首款A(yù)I模型推理性能對(duì)標(biāo)Meta、谷歌

近日，OpenAI正式確認(rèn)將推出自2019年GPT-2以來(lái)的首個(gè)開(kāi)源語(yǔ)言模型。據(jù)知情人士透露，該模型由研究副總裁Aidan Clark主導(dǎo)開(kāi)發(fā)，計(jì)劃于今年夏季初發(fā)布，其核心目標(biāo)是在…

AI
2025年4月24日
新聞

蘋(píng)果、Meta因違反歐盟新規(guī)被重罰7億歐元

當(dāng)?shù)貢r(shí)間4月23日，歐盟委員會(huì)宣布對(duì)蘋(píng)果及Meta分別處以5億歐元和2億歐元罰款，總計(jì)7億歐元（約合58.45億元人民幣）。這是歐盟《數(shù)字市場(chǎng)法案》（DMA）自2024年3月生效以…

李森
2025年4月24日
AI

字節(jié)跳動(dòng)CapCut遭下架后，Instagram推出Edits

在字節(jié)跳動(dòng)旗下視頻剪輯工具CapCut（剪映國(guó)際版）突遭蘋(píng)果App Store下架四個(gè)月后，Meta旗下Instagram今日正式發(fā)布全新視頻編輯器Edits。這款針對(duì)創(chuàng)作者深度定…

AI
2025年4月23日
商業(yè)

?科技巨頭高管關(guān)稅前夜精準(zhǔn)套現(xiàn) 馬斯克財(cái)富蒸發(fā)近千億

在美國(guó)前總統(tǒng)特朗普宣布新一輪關(guān)稅政策前夕，科技與金融界掀起高管減持潮。彭博社披露數(shù)據(jù)顯示，Meta CEO扎克伯格、甲骨文CEO卡茨、摩根大通CEO戴蒙等企業(yè)領(lǐng)袖在第一季度累計(jì)拋售…

商業(yè)頭條
2025年4月21日
新聞

?Meta重啟歐盟用戶數(shù)據(jù)訓(xùn)練AI 用戶可自主選擇退出

Meta公司本周一宣布，將恢復(fù)在歐盟地區(qū)使用Facebook和Instagram的公開(kāi)內(nèi)容（如帖子、評(píng)論）訓(xùn)練其人工智能模型。此前因數(shù)據(jù)隱私爭(zhēng)議，該計(jì)劃曾被暫停近半年。Meta表示…

NEWS
2025年4月15日
新聞

谷歌安卓和 Pixel 手機(jī)團(tuán)隊(duì)被曝裁員數(shù)百人

4 月 14 日，據(jù)報(bào)道，一位了解情況的人士透露，Alphabet 旗下的谷歌在其平臺(tái)和設(shè)備部門(mén)裁員數(shù)百人。報(bào)道稱，該部門(mén)的裁員，發(fā)生在谷歌 1 月份向該部門(mén)員工發(fā)出要約之后。一…

潮玩君
2025年4月14日
新聞

Meta 上線 Facebook 青少年賬戶 16 歲以下用戶開(kāi)直播需父母同意

在全球范圍內(nèi)對(duì)社交媒體平臺(tái)未成年人保護(hù)措施日益關(guān)注的背景下，Meta公司于4月9日宣布了一項(xiàng)重要舉措——將其”青少年賬戶”功能從Instagram擴(kuò)展至Fa…

潮玩君
2025年4月9日
商業(yè)

科技七姐妹遭“黑色48小時(shí)”：蘋(píng)果單日市值蒸發(fā)4159億美元

近日，美股經(jīng)歷劇烈震蕩，被稱為“七姐妹”的科技巨頭蘋(píng)果、英偉達(dá)、Meta、谷歌、微軟、亞馬遜、特斯拉在4月4日至5日兩個(gè)交易日內(nèi)市值蒸發(fā)1.5萬(wàn)億美元。這場(chǎng)風(fēng)暴導(dǎo)致納斯達(dá)克綜合指數(shù)…

商業(yè)頭條
2025年4月7日
AI

Meta周日發(fā)布Llama 4，最強(qiáng)開(kāi)源模型組隊(duì)殺入AI戰(zhàn)場(chǎng)

當(dāng)?shù)貢r(shí)間4月6日，Meta在硅谷周末的平靜中突然投下AI核彈。這家科技巨頭在官網(wǎng)及開(kāi)發(fā)者社區(qū)同步上線Llama 4系列，包含Scout、Maverick兩款即時(shí)可用模型，以及預(yù)告中…

AI
2025年4月7日
AI

Meta發(fā)布Llama 4系列AI模型，包含三款

近日，科技領(lǐng)域迎來(lái)新動(dòng)態(tài)，Meta正式發(fā)布旗下最新Llama 4系列AI模型，包含Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth三款…

AI
2025年4月6日
商業(yè)

美股集體收漲特斯拉漲近12%

美東時(shí)間3月24日，美國(guó)股市迎來(lái)強(qiáng)勢(shì)開(kāi)局，三大基準(zhǔn)指數(shù)集體收漲。道瓊斯工業(yè)平均指數(shù)勁升597.97點(diǎn)（+1.42%）至42583.32點(diǎn)，納斯達(dá)克綜合指數(shù)暴漲404.54點(diǎn)（+2.…

商業(yè)頭條
2025年3月25日
新聞

馬斯克旗下X平臺(tái)起訴印度政府，特斯拉入印談判陷微妙時(shí)刻

全球首富埃隆·馬斯克旗下社交媒體平臺(tái)X（原Twitter）與印度政府的沖突正式升級(jí)。據(jù)彭博社報(bào)道，X公司近日向印度卡納塔克邦高等法院提起訴訟，指控印度聯(lián)邦政府頻繁下達(dá)“武斷且反復(fù)無(wú)…

李小白
2025年3月21日
AI

Meta 就 Instagram 推薦血腥暴力視頻致歉，卻稱與內(nèi)容審核政策調(diào)整無(wú)關(guān)

Meta 公司在周三晚間為其出現(xiàn)的“錯(cuò)誤”道歉，承認(rèn)這一錯(cuò)誤導(dǎo)致了大量帶有暴力畫(huà)面的圖像和視頻出現(xiàn)在大量 Instagram 用戶的動(dòng)態(tài)中，其中包括未成年人。

檸萌
2025年3月1日
新聞

澳大利亞重罰Telegram百萬(wàn)澳元嚴(yán)打平臺(tái)有害內(nèi)容監(jiān)管漏洞

據(jù)報(bào)道，澳大利亞在線安全監(jiān)管機(jī)構(gòu)eSafety今日宣布，對(duì)即時(shí)通訊平臺(tái)Telegram處以100萬(wàn)澳元（約合人民幣462.6萬(wàn)元）罰款，因其逾期160天未按要求提交打擊兒童虐待及恐…

NEWS
2025年2月24日
商業(yè)

Meta股價(jià)連漲16天，市值直逼2萬(wàn)億大關(guān)

最近一段時(shí)間，Meta股票在股市中大放異彩，成為人工智能領(lǐng)域的一顆璀璨明珠。盡管周二Meta股價(jià)略有回調(diào)，但此前Meta股票已經(jīng)連續(xù)16個(gè)交易日上漲，期間股價(jià)累計(jì)漲幅高達(dá)17%，M…

happy
2025年2月12日
新聞

Meta“AI讀心術(shù)”準(zhǔn)確率可達(dá)80%，腦機(jī)技術(shù)實(shí)現(xiàn)大腦打字

近日，Meta首席執(zhí)行官扎克伯格透露了一項(xiàng)令人驚嘆的新技術(shù)——Meta“AI讀心術(shù)”。據(jù)了解，Meta已經(jīng)成功研發(fā)出一種腦機(jī)技術(shù)，使用戶能夠通過(guò)大腦直接輸入文字，準(zhǔn)確率高達(dá)80%。…

net
2025年2月11日