風口浪尖行穩(wěn)致遠 – 英偉達等企業(yè)如何順應高性能計算大模型浪潮

摘要:近年來,預訓練語言模型(PLM)的出現(xiàn)為AI語言技術發(fā)展提供了新的思路。PLM通過在大規(guī)模語料上預訓練Transformer模型,在各類自然語言處理任務上展現(xiàn)出強大的語言理解和生成能力。

當然,要實現(xiàn)語言AI的產(chǎn)業(yè)化應用,還面臨一定難題。一方面,目前大規(guī)模模型仍需消耗大量算力進行訓練,這增加了應用門檻。另一方面,從算法層面來說,PLM的表示學習和特征工程還需進一步優(yōu)化,才能真正達到人類語言水平。業(yè)內(nèi)企業(yè)正在積極應對這些挑戰(zhàn)。

以英偉達為例,其正調(diào)整產(chǎn)品策略,在保持GPU性能領先的同時,也開始布局AI芯片等產(chǎn)業(yè)。國內(nèi)初創(chuàng)公司如浪潮、聯(lián)想、華為、藍海大腦等,則致力于研發(fā)大模型訓練平臺,以降低訓練成本。可以看出,提升算力支持和算法創(chuàng)新正在成為當前語言AI發(fā)展的兩個重要方向。各方共同努力將有助于突破技術瓶頸,加速PLM模型在復雜環(huán)境中的應用,推動語言AI技術實現(xiàn)從實驗室到實際場景的飛躍。

特征工程算法測評

Transformer算法是自然語言處理領域中的一項重要技術,相較于循環(huán)神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡,采用自注意力機制可以更好地處理模型長距離依賴問題,并通過并行計算提高效率。其核心思路是首先將輸入映射到高維空間表示,然后通過多層自注意力網(wǎng)絡學習表示之間的關系,實現(xiàn)信息的傳遞和變換,最后再解碼回輸出。該結構避免了循環(huán)神經(jīng)網(wǎng)絡中的順序計算限制,也沒有卷積神經(jīng)網(wǎng)絡對序列長度的限制。借助這種強大的表征學習能力,Transformer模型在機器翻譯、文本生成等任務上取得突破性進展。

一、Transformer 工作流程

Transformer算法的工作流程可以概括為:獲取輸入序列——對輸入序列添加位置編碼,以表示其在序列中的位置信息——將編碼后的輸入序列輸入到Transformer模型中——Transformer模型內(nèi)部通過多頭注意力機制學習輸入序列的表示——經(jīng)過多層Transformer塊的處理,得到輸出序列。

Transformer是一個序列到序列的結構,通過自注意力來學習輸入序列的特征表示,然后生成對應的輸出序列。相較于RNN和CNN,能更好地建模長序列的語義信息。輸入的位置編碼為模型提供序列順序的信息。多頭注意力允許同時關注不同位置的內(nèi)容。最終,Transformer可完成諸如翻譯、文本生成等從輸入序列到輸出序列的任務。

IMG_257

Transformer 框架

Transformer模型主要包含編碼器和解碼器兩個組件。編碼器負責分析輸入序列;解碼器負責生成輸出序列??筛鶕?jù)實際需要進行靈活組合,構建適用于不同NLP任務的Transformer模型。ChatGPT和BERT就是編碼器解碼器用法的代表案例。

IMG_258

Transformer 編碼器、解碼器結構

Transformer模型中的編碼器-解碼器堆疊結構指將多個編碼器塊和解碼器塊按順序疊加在一起,形成一個多層的結構。具體來說,就是輸入序列經(jīng)過第一個編碼器塊處理后,輸出作為第二個編碼器塊的輸入,以此類推。編碼器最后輸出的表示向量作為第一個解碼器塊的輸入,然后依次通過每個解碼器塊。這種堆疊結構增強了模型學習輸入輸出序列的特征表示能力。下層編碼器聚焦局部特征,上層編碼器聚焦全局特征。類似的下層解碼器關注細節(jié),上層解碼器關注全局結構。

IMG_259

Encoders- Decoders 堆疊

Encoder 編碼器由兩個主要組件組成:自注意力機制(Self-Attention)和前饋神經(jīng)網(wǎng)絡(Feed-Forward Neural Network)。自注意力機制是 Encoder 編碼器的核心部分,將在下文中進行詳細介紹。前饋神經(jīng)網(wǎng)絡由兩個全連接層和一個激活函數(shù)組成,能夠?qū)斎胄蛄械谋硎具M行映射和變換,以捕捉更豐富的特征和語義信息。

Transformer編碼器(Encoder)由自注意力機制和前饋全連接網(wǎng)絡兩個核心模塊組成。自注意力機制通過計算序列中不同位置之間的相關性,為模型提供輸入序列的全局信息。前饋全連接網(wǎng)絡提供一個非線性轉(zhuǎn)換,使模型能夠建模更復雜的特征表示。編碼器通過這兩個模塊的結合,實現(xiàn)對輸入序列語義信息的深層特征學習和表達。自注意力機制是編碼器的核心,前饋全連接網(wǎng)絡進行特征映射和增強,二者相互配合,構成Transformer編碼器的基本框架。

IMG_260

Encoder 內(nèi)部結構

自注意力機制是Transformer模型的核心組成部分,廣泛用于編碼器和解碼器中。主要作用是建模輸入序列不同位置之間的關聯(lián)關系,得到與整體上下文相關的表示。其工作流程可以概括為:計算查詢向量Q鍵向量K和值向量V(來自輸入序列的線性變換)——通過點積計算查詢向量和鍵向量之間的相關性,得到注意力權重——根據(jù)權重對值向量進行加權求和,得到自注意力輸出——通過注意力權重分配不同及位置不同程度的關注,獲得整體上下文表示。自注意力通過學習輸入序列內(nèi)部的依賴關系,為模型提供序列的全局信息。

IMG_261

Query, key, Value 矩陣運算

實際上,在自注意力機制中,需要通過機器學習來獲取的參數(shù)是 W_Q、W_K 和 W_V 這三個矩陣。在實踐中,注意力機制模塊可以在計算得到 O 矩陣后,對 O 矩陣進行線性變換,因此會額外增加一個 W_O 矩陣需要進行學習。

IMG_262

Transformer 算法流程圖

人工智能大模型體驗報告

大型AI模型的發(fā)展正推動產(chǎn)業(yè)智能化升級。過去針對不同場景需要重復開發(fā)AI模型,效率較低。大型通用模型的出現(xiàn)改變了這一局面,使同一個模型可服務多場景,加速產(chǎn)業(yè)向全鏈路智能化方向發(fā)展?!渡墒饺斯ぶ悄芊展芾頃盒修k法》為大模型的發(fā)展指明方向,國家將致力于促進創(chuàng)新與安全并重。

在各方共同努力下,中國大模型的產(chǎn)業(yè)生態(tài)已初步形成。未來企業(yè)可根據(jù)定位發(fā)揮優(yōu)勢,頭部企業(yè)可繼續(xù)自主研發(fā),解決方案企業(yè)可通過垂直細分積累特色。頭部企業(yè)還應當充分開放共享,幫助推廣大型模型,發(fā)揮技術的社會價值。

大模型與行業(yè)的融合也將發(fā)揮關鍵作用,在諸如金融、工業(yè)、醫(yī)療等領域已展現(xiàn)出巨大應用潛力。持續(xù)探索行業(yè)解決方案是大模型企業(yè)的重要方向。新一代AI有望成為企業(yè)的競爭優(yōu)勢。各方攜手合作,推動大型模型落地應用,將促進人工智能產(chǎn)業(yè)進步。

一、大模型成為AI大規(guī)模落地拐點

中國大模型發(fā)展勢頭強勁,獲得持續(xù)關注和資本追捧。天眼查數(shù)據(jù)顯示,2023年上半年直接與“大模型”相關的融資事件超過20起,熱點地區(qū)以北京、上海、杭州為主,反映出北京在人工智能領域的領先地位。越來越多企業(yè)和學術機構開始關注大模型的應用落地和商業(yè)化。主要進展集中在:

研究層面:中國在理論、方法、軟硬件等方面形成體系化的大模型研發(fā)能力,學界和產(chǎn)業(yè)界共同推動,健全了理論框架。

應用層面:大模型開始滲透各行各業(yè),并實現(xiàn)商業(yè)化應用。超過半數(shù)大模型已開源。

可以看出,在資本的推動下中國大模型技術在研究和應用方面都獲得長足發(fā)展,產(chǎn)業(yè)化進程正在加速推進。這為中國在人工智能領域的領先地位奠定了基礎。

IMG_263

1、大模型進程過半,如何讓AI真正走進千家萬戶成關注重點

人工智能發(fā)展的重點正在從追求模型規(guī)模向提升實用性和可持續(xù)性轉(zhuǎn)變。要實現(xiàn)AI大規(guī)模應用,還需要在多方面進行優(yōu)化:

1)降低訓練成本。主要通過算法優(yōu)化、分布式訓練、模型壓縮等方式來減少計算資源消耗。

2)提高易用性。采用友好的用戶交互方式,提供簡單的開發(fā)工具,加強用戶教育和運營支持,降低使用門檻。

3)增強安全性。提高數(shù)據(jù)質(zhì)量,增強模型魯棒性,建立持續(xù)監(jiān)控機制及時發(fā)現(xiàn)和修復問題。

4)保護隱私。對用戶數(shù)據(jù)加密和脫敏,實施訪問控制和認證機制,開展安全審計防止數(shù)據(jù)泄露。

總之,要促進人類從AI獲益,需要讓技術更實用、易用、可解釋和可控。只有當科技發(fā)展以人為本、造福社會,才能贏得廣泛認可。

2、未來已來,大模型概念紅利逐漸消失,回歸到實際應用

為推動大模型技術實現(xiàn)從實驗室到實際應用的飛躍,需要在以下幾個方面著力:

1)加強算力基礎設施建設,實現(xiàn)集中高效的算力供給

2)融合跨領域知識和多模態(tài)數(shù)據(jù),建立綜合性知識體系,實現(xiàn)技術和數(shù)據(jù)的深度融合

3)提升模型的安全性和可解釋性,建立安全可靠的大模型應用

4)將大模型應用于實體經(jīng)濟,探索商業(yè)化路徑

5)發(fā)展在線學習和增量學習技術,提高模型的自主學習和適應能力

只有系統(tǒng)性推進大模型技術的產(chǎn)業(yè)化進程持續(xù)強化基礎研究,才能加速人工智能走向深度融入經(jīng)濟社會發(fā)展的日常應用,真正造福人類。

二、大模型廠商整體測評

通過對比Benchmark結果可以得出以下結論:在基礎能力方面,AI算法模型受人類編程思維影響,利用人類的智慧和知識進行開發(fā),因此與人類在某些方面的能力相當。在政策的積極引導下,AI在善良性和語言能力上表現(xiàn)出色,逐漸接近人類專家的水平。然而,大模型的安全可解釋性需要持續(xù)投入,以避免不受控制的現(xiàn)象出現(xiàn)。

盡管AI在某些方面能夠達到或超過人類的水平,但整體上人類在智商方面仍然具有明顯優(yōu)勢。人類通過善用工具和解決問題的能力以及通過互聯(lián)網(wǎng)等渠道獲取各方面的信息并進行總結、積累和歸納,形成個人知識體系,展現(xiàn)了智商的高水平。

在情商方面,AI與人類之間的差距最為明顯。目前尚未觀察到AI具備情緒感知能力的明顯跡象。相比之下,人類在情緒理解和處理方面通常具有更強的優(yōu)勢和更靈活的能力。人類的情感智慧是人類智能的重要組成部分,涉及到高級認知和社交能力,而AI需要進一步發(fā)展感知智能。

在工具效率提升方面,AI對人類提供有力的支持,處理速度遠遠超過人類。然而,在某些復雜和具有創(chuàng)新性的任務中,人類的智慧和想象力仍然無法替代。

1、基礎能力指數(shù)及測評

大型AI模型具備多個基礎能力,其中最重要的是語言能力。語言是人類智慧的體現(xiàn),也是人工智能系統(tǒng)需要理解和模仿的重要領域。大型AI模型通過學習和訓練,能夠理解和生成自然語言文本,并在多語言翻譯和多語言對話方面展現(xiàn)出強大的能力。

除了語言能力,大型AI模型還具備AI向善能力。AI向善指的是人工智能系統(tǒng)在運行過程中,能夠遵循道德和倫理原則保護人類的利益和安全。此外,大型AI模型還具備跨模態(tài)和多輪對話的能力??缒B(tài)能力指的是在不同模態(tài)之間進行轉(zhuǎn)換和遷移,例如將圖像轉(zhuǎn)換為文字描述或?qū)⒄Z音轉(zhuǎn)換為文字,這些能力有助于大型AI模型在自動駕駛、智能家居等領域的應用中更好地理解和處理不同模態(tài)的信息。多輪對話能力則使大型AI模型能夠在多個對話回合中保持連續(xù)性和邏輯性,從而完成更復雜的任務和問題解答。

IMG_264

2、智商指數(shù)及述評

評估大模型的智能水平可以從三個方面進行考察:常識知識、邏輯能力和專業(yè)知識。

1)常識知識

指大模型對于世界、社會和文化等基本信息的認知能力。具備常識知識,大模型能夠更好地理解人類的語言和行為,并在各種情境下做出正確的推理和決策。

2)邏輯能力

邏輯能力是大模型不可或缺的能力之一,使大模型在處理復雜問題時能夠提供嚴謹?shù)乃季S邏輯和強大的分析決策能力,從而推動人工智能從認知層面向感知層面的發(fā)展。

3)專業(yè)知識

指大模型需要具備特定領域的專業(yè)知識和技能。例如,在醫(yī)療領域,大模型需要了解醫(yī)學知識和診斷技能;在法律領域,需要了解法律知識和法律推理能力。這些專業(yè)知識有助于大模型在特定領域中進行準確、高效的問題處理。

IMG_265

3、情商指數(shù)及述評

大模型的情商考察涉及評估其在情感和人際交往方面的能力。包括對日常尷尬事項的反應、處理一語雙關問題以及應對人際關系難題等方面的表現(xiàn)。這些情商考察涉及與朋友、家人、同事等各種場景下的交往問題。

具體而言,日常尷尬事項的反饋指的是大模型在處理一些尷尬或棘手問題時,能否給出合適的回答或解決方案。例如,當被問及一些私人或敏感問題時,大模型需要具備足夠的情商和應變能力,以避免造成不必要的尷尬和誤解。在中國語言中,常常出現(xiàn)一語雙關的情況,大模型需要通過敏銳的洞察力、判斷力和感知能力等,準確理解當前環(huán)境和詞語的含義,并做出恰當?shù)幕貞?/p>

另一方面,人際關系相處難題指的是大模型在與人類進行交互時,能否幫助人類處理各種人際關系問題,例如解決沖突、進行情感交流和表達同理心等。這些問題的處理需要大模型具備高超的人際交往能力和情商,以建立和維護良好的人際關系。

在情商方面,商湯商量、百度文心一言、瀾舟科技Mchat和智譜AI-ChatGLM表現(xiàn)優(yōu)秀;360智腦、訊飛星火、阿里通義千問和昆侖萬維天工表現(xiàn)良好。

IMG_266

4、工具提效指數(shù)及述評

工作提效的考察主要涉及工具提效和創(chuàng)新推動兩個方面。

1)工具提效

指的是大模型是否能夠提供有效的工具來提高工作效率。包括代碼自動生成、數(shù)據(jù)分析與可視化工具、自然語言處理、文件整理、關鍵內(nèi)容總結整合以及機器翻譯工具等。

2)創(chuàng)新推動

指的是大模型是否能夠提供新的思路和方法,推動工作方式的改進和升級。這些創(chuàng)新可以涉及新的業(yè)務流程、創(chuàng)新選題、內(nèi)容創(chuàng)新等。

測評中工作提效的考察包括工具提效和創(chuàng)新推動兩個方面,其中工具提效占50%的權重,創(chuàng)新推動占50%的權重。在工作提效方面,訊飛星火、百度文心一言、商湯商量和智譜AI-ChatGLM表現(xiàn)優(yōu)秀;昆侖萬維天工、阿里通義千問、瀾舟科技Mchat和360智腦表現(xiàn)良好。

IMG_267

三、各大廠商優(yōu)秀答案展示

1、科大訊飛-星火

科大訊飛推出名為”訊飛星火認知大模型”的新一代認知智能大模型,具備七大核心能力,包括文本生成、語言理解、知識問答、邏輯推理、數(shù)學能力、代碼能力和多模態(tài)能力。該模型擁有跨領域的知識和語言理解能力,能夠通過自然對話方式理解并執(zhí)行各種任務。通過不斷學習海量數(shù)據(jù)和大規(guī)模知識,實現(xiàn)從問題的提出、規(guī)劃到解決的全流程閉環(huán)。

IMG_268

2、百度-文言一新

百度開發(fā)的人工智能大語言模型——文心一言,具有跨模態(tài)和跨語言的深度語義理解與生成能力。文心一言擁有五大核心能力,包括文學創(chuàng)作、商業(yè)文案創(chuàng)作、數(shù)理邏輯推算、中文理解以及多模態(tài)生成。

IMG_269

3、商湯-商量

商湯-商量以”堅持原創(chuàng),讓AI引領人類進步”為使命,是首家將人臉支付技術成功應用于地鐵售票系統(tǒng)的公司。同時還為北京大興國際機場提供58套由商湯科技AI技術支持的”智能旅客安檢系統(tǒng)”,為全球旅客提供高效便捷的服務。這些舉措展示了商湯科技在推動人工智能應用和為人類帶來進步方面的領導地位。

IMG_270

4、智譜AI-ChatGLM

智譜AI是一家由清華大學計算機系技術成果轉(zhuǎn)化而成立的公司,專注于開發(fā)新一代認知智能通用模型。其引入全新的”模型即服務(MaaS)”市場理念,并建立認知大模型平臺以及數(shù)字人和科技情報產(chǎn)品,旨在為用戶提供更廣泛的認知智能服務,并推動科技成果的商業(yè)化應用。

IMG_271

5、360-360智腦

360公司是中國領先的互聯(lián)網(wǎng)安全軟件與互聯(lián)網(wǎng)服務公司,主要經(jīng)營360安全衛(wèi)士。自主研發(fā)了名為”360智腦”的千億參數(shù)大語言模型。360的創(chuàng)始人周鴻祎表示,公司將堅持”兩翼齊飛”的大模型戰(zhàn)略,一方面致力于自主研發(fā)核心技術,另一方面通過大模型在城市、政府和企業(yè)領域的應用,進一步推動產(chǎn)業(yè)數(shù)字化和智能化發(fā)展。

IMG_272

6、昆侖萬維-天工

昆侖萬維是中國領先的互聯(lián)網(wǎng)平臺出海企業(yè),深耕海外市場十余載?!疤旃ぁ贝竽P褪怯衫鋈f維主導研發(fā)的雙千億級大語言模型。目前“天工”最高已能支持1萬字以上文本對話,實現(xiàn)20輪次以上用戶交互,在多類問答場景中都能實現(xiàn)較高的輸出水平。

IMG_273

7、阿里-通義千問

阿里通義大模型是阿里云推出的一款超大規(guī)模語言模型,具備多輪對話、文案創(chuàng)作、邏輯推理、多模態(tài)理解和多語言支持等功能。它是阿里云在人工智能領域的重要成果之一,已經(jīng)在多個領域廣泛應用。阿里通義為業(yè)務提供強大的基礎框架和工具,推動人工智能技術的發(fā)展和應用。這一模型為用戶提供了豐富的功能和靈活性,助力各行各業(yè)實現(xiàn)創(chuàng)新發(fā)展。

風口浪尖行穩(wěn)致遠 - 英偉達等企業(yè)如何順應高性能計算大模型浪潮

8、瀾舟科技-MChat

瀾舟科技是一家由創(chuàng)新工場孵化的認知智能公司,成立于2021年6月。專注于AI 2.0大模型的研發(fā),并以自然語言處理(NLP)技術為基礎,提供新一代的認知智能平臺。瀾舟科技的主要產(chǎn)品是一系列基于”孟子大模型”核心技術打造的能力平臺和垂直場景應用。致力于為用戶提供先進的智能解決方案,以推動行業(yè)的數(shù)字化轉(zhuǎn)型和創(chuàng)新發(fā)展。

風口浪尖行穩(wěn)致遠 - 英偉達等企業(yè)如何順應高性能計算大模型浪潮

各大龍頭企業(yè)如何應對大模型發(fā)展?

NVIDIA 已成為 AI 大模型開發(fā)的首選,但 GPU 短缺問題短期內(nèi)難以解決。NVIDIA 在 AI 芯片領域的長期積累,使其在生成式AI浪潮中占據(jù)主導地位,其GPU也成為各大科技公司爭相采購的對象。但 GPU供應有限,制約了人工智能的快速發(fā)展,OpenAI CEO表示GPU短缺限制了他們在模型調(diào)優(yōu)和上下文窗口等方面的進展。目前最強的GPU NVIDIA H100也面臨嚴重缺貨。從供給角度看,H100供應直接受制于臺積電產(chǎn)能,短時間內(nèi)難以找到替代的代工廠,出貨量有限。從需求端看,市場對H100的需求約在43.2萬張左右,總價值將超過150億美元,還沒有考慮中國對H800的需求。NVIDIA正在提升產(chǎn)能,但GPU短缺可能還會持續(xù)一段時間。

國產(chǎn)算力板塊仍具潛力,算力產(chǎn)業(yè)鏈值得關注。當前算力板塊景氣度較高,H800將批量供應中國,相關的AI服務器企業(yè)有望迎來放量。此外各地智能算力中心建設也在推進,國內(nèi)對AI芯片的需求快速增長,國產(chǎn)化替代的需求隨之提升。根據(jù)測算,中國AI芯片市場規(guī)模到2027年將達到2164億元。目前在AI加速卡出貨量上,NVIDIA在中國市場份額超過80%,國產(chǎn)化的需求持續(xù)增長。

IMG_276

中國 AI 芯片市場規(guī)模及增速

一、行業(yè)變化

1、SIGGRAPH 2023 召開,英偉達 AI 布局持續(xù)演進

1) AI 芯片再度升級,英偉達鞏固 AI 算力領域主導地位?

在SIGGRAPH 2023世界計算機圖形學大會上,英偉達創(chuàng)始人兼CEO黃仁勛做主題演講,重點介紹下一代AI超級芯片GH200。他將生成式AI比喻為AI的“iPhone時刻”,自然語言是新的編程語言,使計算機科學實現(xiàn)民主化,人人皆可成為“程序員”。他認為大語言模型是新型計算平臺,將賦能各類新應用,并讓舊平臺帶來諸如Office和Copilot等好處。演講中,英偉達宣布推出下一代GH200 Grace Hopper超級芯片,搭載全球首個HBM3e內(nèi)存。黃仁勛的演說充分展現(xiàn)出英偉達對大語言模型計算平臺前景的信心和領先視野,也預示著英偉達將繼續(xù)通過創(chuàng)新芯片產(chǎn)品,推動大模型技術的發(fā)展。

風口浪尖行穩(wěn)致遠 - 英偉達等企業(yè)如何順應高性能計算大模型浪潮

生成式 AI 是 AI 的“iPhone 時刻”

英偉達計劃于2024年第二季度開始生產(chǎn)GH200芯片,該芯片將取代H100 GPU,性能大幅提升。在2022年3月,英偉達首次推出Grace Hopper超級芯片,該芯片將CPU和GPU融合在一塊主板上,直到今年5月才開始正式量產(chǎn)。而此次推出的GH200芯片則采用新型的HBM3e內(nèi)存。GH200芯片專為高性能計算和生成式AI時代而設計,將在今年年底左右進行樣片測試,并于2024年第二季度末開始投入生產(chǎn)。GH200芯片由72核的Grace CPU和4 PFLOPS的Hopper GPU組成,通過NVLink C2C技術連接,搭載141GB的HBM3e內(nèi)存,提供每秒5TB的帶寬。每個GPU的容量是NVIDIA H100 GPU的1.7倍,帶寬是H100的1.55倍。通過將兩個GH200芯片連接在一起,可以獲得更高性能的計算服務。與前一代相比,雙配置的內(nèi)存容量增加了3.5倍,帶寬增加3倍。

風口浪尖行穩(wěn)致遠 - 英偉達等企業(yè)如何順應高性能計算大模型浪潮

由兩個 GH200 芯片組成的計算平臺

該芯片具備出色的可擴展性,最多支持將256個芯片連接在一起,形成DGX GH200計算平臺。通過NV Link Switch技術,可以將256塊GH200芯片組裝成DGX GH200 SuperPod,提供高達1 EFLOPS的計算能力和144TB的高速內(nèi)存。通過NVIDIA Quantum-2 InfiniBand Switch技術,可以使用高速、低延遲的網(wǎng)絡連接多個DGX GH200 SuperPod,從而構建出面向生成式AI時代的Grace Hopper AI超級計算機。

風口浪尖行穩(wěn)致遠 - 英偉達等企業(yè)如何順應高性能計算大模型浪潮

由 256 張 GH200 組成的 DGX GH200 系統(tǒng)

隨著芯片的升級,數(shù)據(jù)中心在同等預算和工作負載條件下的能效顯著提高,相較以往以CPU為主的數(shù)據(jù)中心有巨大的改進。在過去的60年中通用計算是主流,1億美元可以構建一個由8800塊x86 CPU組成的數(shù)據(jù)中心,功耗為5MW。然而,在當前和未來的加速計算和AI計算時代,同樣1億美元可以構建一個由2500塊GH200芯片組成的數(shù)據(jù)中心,功耗僅為3MW。而且,這個AI推理性能相當于之前提到的CPU系統(tǒng)的12倍,能效提高20倍。如果想要達到和1億美元的x86 CPU數(shù)據(jù)中心相同的AI性能,只需要210塊GH200芯片構成的計算平臺,功耗僅為0.26MW,成本也只需800萬美元。

風口浪尖行穩(wěn)致遠 - 英偉達等企業(yè)如何順應高性能計算大模型浪潮

同等預算下 GH200 數(shù)據(jù)中心的能效是 x86 CPU 數(shù)據(jù)中心的 20 倍

為滿足生成式AI、大模型開發(fā)、內(nèi)容創(chuàng)作和數(shù)據(jù)科學等領域的需求,NVIDIA推出全新的桌面級AI GPU系列。其中包括RTX 6000、RTX 5000、RTX 4500和RTX 4000四款產(chǎn)品,基于最強大的是RTX 6000。NVIDIA還提供一站式解決方案RTX Workstation,專為企業(yè)級用戶設計。RTX Workstation支持最多4張RTX 6000 GPU,可以在15小時內(nèi)完成對GPT3-40B模型的8.6億個token的微調(diào),同時還能讓Stable Diffusion XL每分鐘生成40張圖片,比RTX 4090快了5倍。

風口浪尖行穩(wěn)致遠 - 英偉達等企業(yè)如何順應高性能計算大模型浪潮

英偉達推出基于 RTX 6000 的 RTX Workstation

為滿足數(shù)據(jù)中心的需求,英偉達推出OVX服務器,其搭載L40S Ada GPU。這款服務器經(jīng)過圖形、計算、存儲和網(wǎng)絡的優(yōu)化,每臺服務器最多可搭載8個L40S GPU,每個GPU配備48GB GDDR6內(nèi)存,提供1.45 PFLOPS的算力。OVX服務器令人驚嘆的是,僅需7小時就能完成對GPT3-40B模型的8.6億個token的微調(diào),其性能表現(xiàn)甚至超過A100的1.7倍。

風口浪尖行穩(wěn)致遠 - 英偉達等企業(yè)如何順應高性能計算大模型浪潮

英偉達推出基于 L40S GPU 的 OVX 服務器

英偉達在AI基礎設施領域依然穩(wěn)居主導地位。自從ChatGPT引領生成式AI浪潮以來,NVIDIA GPU已經(jīng)成為支持生成式AI和大模型訓練的首選芯片,功不可沒。隨著GH200超級AI芯片的升級和多款GPU、服務器產(chǎn)品的推出,英偉達展現(xiàn)了其在AI基礎設施領域的絕對主導地位。

2、AI 生態(tài)持續(xù)拓展,助力生成式 AI 開發(fā)與多領域應用

英偉達與Hugging Face合作,使得在NVIDIA DGX Cloud上訓練模型變得更加便捷。Hugging Face是目前最受AI開發(fā)者喜愛的平臺之一,擁有超過200萬用戶、超過25萬個模型和5萬個數(shù)據(jù)集。通過與英偉達的合作,開發(fā)人員可以利用DGX Cloud的超級計算能力來構建大語言模型和其他高級AI應用程序。每個DGX Cloud實例配備了8個NVIDIA H100或A100 80GB Tensor Core GPU,每個節(jié)點的GPU內(nèi)存總計達到640GB。

IMG_283

英偉達與 Hugging Face 達成合作

NVIDIA 推出的 AI Workbench是一個統(tǒng)一的工作空間,可以加速定制生成式 AI 應用的開發(fā)。它可以幫助開發(fā)者在 PC 或工作站上快速創(chuàng)建、測試和調(diào)優(yōu)模型并無縫擴展到數(shù)據(jù)中心、公有云或 NVIDIA DGX Cloud。AI Workbench 還與 GitHub、NVIDIA NGC、Hugging Face 等服務集成,開發(fā)者可以在不同的平臺和基礎設施上進行開發(fā),并可以一鍵遷移。在現(xiàn)場演示視頻中開發(fā)者在搭載 RTX 4090 的筆記本電腦上使用 AI Workbench 對 Stable Diffusion-XL 模型進行了微調(diào)。AI Workbench 可以自動創(chuàng)建項目環(huán)境、構建容器,方便地訪問服務器以及部署到應用中。

IMG_284

NVIDIA AI Workbench 工作流程

NVIDIA 推出AI Enterprise 4.0 版本為企業(yè)級生成式AI開發(fā)帶來更強的安全性和穩(wěn)定性。AI Enterprise 4.0 新增支持多款軟件和工具,簡化生成式AI的部署。其中一個重要亮點是引入NVIDIA NeMo框架,它是一套云原生框架,可以用來構建、定制和部署大語言模型,為創(chuàng)建和定制大語言模型應用提供了端到端的支持。AI Enterprise支持用戶跨云、數(shù)據(jù)中心和邊緣構建及運行基于NVIDIA AI的解決方案,經(jīng)過認證可以在主流的NVIDIA認證系統(tǒng)、NVIDIA DGX系統(tǒng)、所有主要的云平臺以及新發(fā)布的NVIDIA RTX工作站上運行。此外,AI Enterprise 4.0還將集成到其他合作伙伴如Google Cloud、Microsoft Azure和Oracle等。

IMG_285

英偉達升級 AI Enterprise 4.0

NVIDIA 為 OpenUSD 進行了升級,為開發(fā)者和企業(yè)提供了更多的框架和資源服務。OpenUSD 由皮克斯發(fā)明并在2016年開源的通用場景描述格式,用于創(chuàng)建和描述3D世界,使不同的3D設計軟件可以無障礙地協(xié)作。目前已有50多種設計工具原生支持了USD標準。NVIDIA從5年前就開始與皮克斯合作,全力支持OpenUSD的發(fā)展。

NVIDIA提供了Omniverse Cloud和多種API,帶給開發(fā)者和企業(yè)更多的框架和資源。最引人關注的兩個API是:基于大語言模型的ChatUSD,可以像Copilot一樣在Omniverse中回答問題和生成代碼;以及基于大語言模型的語義3D搜索服務DeepSearch,可以通過文本或圖像快速搜索大量未標注的數(shù)據(jù)集。在AI的推動下協(xié)作式3D和數(shù)字化的時代正在到來。

IMG_286

英偉達 Omniverse 采用 OpenUSD 標準,提供多種 API 服務

二、各大廠商如何布局?

1、Stability AI 推出 StableCode,一款用于寫代碼的大型語言模型

8 月 9 日,Stability AI 發(fā)布其新的開放大型語言模型(LLM)StableCode ,該模型旨在幫助用戶生成編程語言代碼,基于 transformer 神經(jīng)網(wǎng)絡打造。Stability AI 以其 Stable Diffusion 文本生成圖像模型而聞名,現(xiàn)在開始涉足代碼生成領域。 StableCode 模型訓練數(shù)據(jù)則來自 BigCode 項目的初始編程語言數(shù)據(jù)集,并用 Stability AI 進行篩選和微調(diào), 將首先支持 Python、Go、Java、JavaScript、C、markdown 和 C++ 等編程語言的開發(fā)。

同時,提供三個層級的模型,分別為用于通用領域的基礎模型、指令模型和一個支持多達 16,000 個 tokens 的長上下文窗口模型。Stability AI 稱長上下文窗口模型版本比其他大模型都要大,支持更專業(yè)和更復雜的代碼生成提示,用戶可以使用 StableCode 查看一個包含多個文件的中等大小的代碼庫,以幫助理解和生成新代碼。

2、OpenAI 在中國申請注冊“GPT-5”商標,此前已在美國申請

8月10日,據(jù)國家知識產(chǎn)權局顯示,OpenAI的運營公司最近申請注冊兩枚“GPT-5”商標,分別用于科學儀器和設計研究領域。此前OpenAI已在上月向美國專利商標局申請注冊“GPT-5”商標。從商標信息看,GPT-5將提供文本生成、自然語言理解、語音轉(zhuǎn)錄、翻譯、分析等功能。OpenAI此前在6月表示還未開始訓練GPT-5。另外,OpenAI的GPT-4今年上半年也在中國申請了相關商標以及一個“WHISPER”的網(wǎng)站服務商標。這表明OpenAI正在積極布局GPT-5等新模型,中國也是其重要的商業(yè)化市場。

3、小米 AI 大模型 MiLM-6B 首次曝光:64 億參數(shù),C-Eval 總榜排名第 10

最近小米的大語言模型MiLM-6B首次出現(xiàn)在C-Eval和CMMLU兩大AI模型評測榜單上。GitHub項目顯示MiLM-6B是一個參數(shù)規(guī)模達64億的大規(guī)模預訓練語言模型,由小米自主開發(fā)。截至8月11日在C-Eval總榜MiLM-6B排名第10,同參數(shù)量級模型排名第一;在CMMLU中文向大模型排名第一。C-Eval數(shù)據(jù)顯示,在STEM科目中MiLM-6B在計量、物理、化學、生物等準確率較高。在社科科目中除教育和地理外,均獲得較理想的準確率。在人文科目中,MiLM-6B的歷史和法律準確率較佳??傮w來說,MiLM-6B在多數(shù)文科科目已具備相對良好的準確度,但在涉及“抽象思維”的法學、數(shù)學、編程等科目仍有進步空間。這表明小米自主研發(fā)的大模型MiLM-6B具有較強的通用語言能力。

4、微軟亞洲研究院推出工業(yè)場景用大模型,利用 GPT-4 控制空調(diào)系統(tǒng)

日前微軟亞洲研究院在論文中提出用GPT-4模型來控制工業(yè)場景中的空調(diào)系統(tǒng),稱此方法僅需少量樣本就能在成本和效率上優(yōu)于傳統(tǒng)工控系統(tǒng)。微軟表示對工業(yè)場景傳統(tǒng)工控軟件處理異構任務、樣本利用率低,適應新場景需要大量時間和預算而用預訓練大模型控制相關設備,在高準確率下可降低部署成本。微軟使用GPT-4在虛擬空調(diào)環(huán)境進行了實驗,開發(fā)出一種基礎模型應用于工控但無需大量訓練的方法,獲得了積極結果。該研究旨在探索直接用預訓練大模型進行工業(yè)控制任務的潛力逐步取代容錯率較高的工業(yè)環(huán)境。這表明預訓練語言模型在工業(yè)控制等領域也展現(xiàn)出廣闊的應用前景。

5、明略科技開源 TensorBoard.cpp,助力大模型預訓練

近日明略科技集團實現(xiàn)了機器學習可視化工具TensorBoard的C++接口,進一步豐富了基于C++的大模型項目工具集,使大模型預訓練過程監(jiān)控更便捷高效,加速了營銷領域大模型的預訓練。TensorBoard是谷歌開發(fā)的機器學習可視化工具,常用于監(jiān)測機器學習過程的各項指標。據(jù)介紹TensorBoard通過可視化模型中的參數(shù)和結果,如記錄訓練過程中的Loss變化、驗證集的PPL變化、學習率變化等,幫助分析訓練狀態(tài)發(fā)現(xiàn)問題并及時采取措施。此前TensorBoard僅支持Python。明略科技通過C++實現(xiàn)TensorBoard將進一步豐富基于C++的大模型項目工具集,大幅提升監(jiān)測效率加速模型訓練。改寫接口后的工具將以多種數(shù)據(jù)模式展示訓練指標,包括標量、直方圖、圖像等。該工具包在GitHub上開源,助力更多研究者和開發(fā)者參與大模型研發(fā),推動人工智能多領域應用。

藍海大腦大模型訓練平臺

藍海大腦大模型訓練平臺提供強大的算力支持,包括基于開放加速模組高速互聯(lián)的AI加速器。配置高速內(nèi)存且支持全互聯(lián)拓撲,滿足大模型訓練中張量并行的通信需求。支持高性能I/O擴展,同時可以擴展至萬卡AI集群,滿足大模型流水線和數(shù)據(jù)并行的通信需求。強大的液冷系統(tǒng)熱插拔及智能電源管理技術,當BMC收到PSU故障或錯誤警告(如斷電、電涌,過熱),自動強制系統(tǒng)的CPU進入ULFM(超低頻模式,以實現(xiàn)最低功耗)。致力于通過“低碳節(jié)能”為客戶提供環(huán)保綠色的高性能計算解決方案。主要應用于深度學習、學術教育、生物醫(yī)藥、地球勘探、氣象海洋、超算中心、AI及大數(shù)據(jù)等領域。

千庫網(wǎng)_科技光效展臺背景_背景編號6434628-恢復的

一、為什么需要大模型?

1、模型效果更優(yōu)

大模型在各場景上的效果均優(yōu)于普通模型

2、創(chuàng)造能力更強

大模型能夠進行內(nèi)容生成(AIGC),助力內(nèi)容規(guī)?;a(chǎn)

3、靈活定制場景

通過舉例子的方式,定制大模型海量的應用場景

4、標注數(shù)據(jù)更少

通過學習少量行業(yè)數(shù)據(jù),大模型就能夠應對特定業(yè)務場景的需求

二、平臺特點

1、異構計算資源調(diào)度

一種基于通用服務器和專用硬件的綜合解決方案,用于調(diào)度和管理多種異構計算資源,包括CPU、GPU等。通過強大的虛擬化管理功能,能夠輕松部署底層計算資源,并高效運行各種模型。同時充分發(fā)揮不同異構資源的硬件加速能力,以加快模型的運行速度和生成速度。

2、穩(wěn)定可靠的數(shù)據(jù)存儲

支持多存儲類型協(xié)議,包括塊、文件和對象存儲服務。將存儲資源池化實現(xiàn)模型和生成數(shù)據(jù)的自由流通,提高數(shù)據(jù)的利用率。同時采用多副本、多級故障域和故障自恢復等數(shù)據(jù)保護機制,確保模型和數(shù)據(jù)的安全穩(wěn)定運行。

3、高性能分布式網(wǎng)絡

提供算力資源的網(wǎng)絡和存儲,并通過分布式網(wǎng)絡機制進行轉(zhuǎn)發(fā),透傳物理網(wǎng)絡性能,顯著提高模型算力的效率和性能。

4、全方位安全保障

在模型托管方面,采用嚴格的權限管理機制,確保模型倉庫的安全性。在數(shù)據(jù)存儲方面,提供私有化部署和數(shù)據(jù)磁盤加密等措施,保證數(shù)據(jù)的安全可控性。同時,在模型分發(fā)和運行過程中,提供全面的賬號認證和日志審計功能,全方位保障模型和數(shù)據(jù)的安全性。

三、常用配置

目前大模型訓練多常用H100、H800、A800、A100等GPU顯卡,以下是一些常用的配置。

1、H100服務器常用配置

英偉達H100 配備第四代 Tensor Core 和 Transformer 引擎(FP8 精度),與上一代產(chǎn)品相比,可為多專家 (MoE) 模型提供高 9 倍的訓練速度。通過結合可提供 900 GB/s GPU 間互連的第四代 NVlink、可跨節(jié)點加速每個 GPU 通信的 NVLINK Switch 系統(tǒng)、PCIe 5.0 以及 NVIDIA Magnum IO? 軟件,為小型企業(yè)到大規(guī)模統(tǒng)一 GPU 集群提供高效的可擴展性。

搭載 H100 的加速服務器可以提供相應的計算能力,并利用 NVLink 和 NVSwitch 每個 GPU 3 TB/s 的顯存帶寬和可擴展性,憑借高性能應對數(shù)據(jù)分析以及通過擴展支持龐大的數(shù)據(jù)集。通過結合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 軟件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS?,NVIDIA 數(shù)據(jù)中心平臺能夠以出色的性能和效率加速這些大型工作負載。

CPU:英特爾至強Platinum 8468 48C 96T 3.80GHz 105MB 350W *2

內(nèi)存:動態(tài)隨機存取存儲器64GB DDR5 4800兆赫 *24

存儲:固態(tài)硬盤3.2TB U.2 PCIe第4代 *4

GPU :Nvidia Vulcan PCIe H100 80GB *8

平臺 :HD210 *1

散熱 :CPU+GPU液冷一體散熱系統(tǒng) *1

網(wǎng)絡 :英偉達IB 400Gb/s單端口適配器 *8

電源:2000W(2+2)冗余高效電源 *1

2、A800服務器常用配置

NVIDIA A800 的深度學習運算能力可達 312 teraFLOPS(TFLOPS)。其深度學習訓練的Tensor 每秒浮點運算次數(shù)(FLOPS)和推理的 Tensor 每秒萬億次運算次數(shù)(TOPS)皆為NVIDIA Volta GPU 的 20 倍。采用的 NVIDIA NVLink可提供兩倍于上一代的吞吐量。與 NVIDIA NVSwitch 結合使用時,此技術可將多達 16 個 A800 GPU 互聯(lián),并將速度提升至 600GB/s,從而在單個服務器上實現(xiàn)出色的應用性能。NVLink 技術可應用在 A800 中:SXM GPU 通過 HGX A100 服務器主板連接,PCIe GPU 通過 NVLink 橋接器可橋接多達 2 個 GPU。

CPU:Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2

內(nèi)存:DDR4 3200 64G *32

數(shù)據(jù)盤:960G 2.5 SATA 6Gb R SSD *2

硬盤:3.84T 2.5-E4x4R SSD *2

網(wǎng)絡:雙口10G光纖網(wǎng)卡(含模塊)*1

???雙口25G SFP28無模塊光纖網(wǎng)卡(MCX512A-ADAT )*1

GPU:HV HGX A800 8-GPU 8OGB *1

電源:3500W電源模塊*4

其他:25G SFP28多模光模塊 *2

? ??單端口200G HDR HCA卡(型號:MCX653105A-HDAT) *4

? ? ? 2GB SAS 12Gb 8口 RAID卡 *1

?? 16A電源線纜國標1.8m *4

? ? ? ?托軌 *1

? ? ? 主板預留PCIE4.0x16接口 *4

? ? ? 支持2個M.2 *1

? ? ? 原廠質(zhì)保3年 *1

3、A100服務器常用配置

NVIDIA A100 Tensor Core GPU 可針對 AI、數(shù)據(jù)分析和 HPC 應用場景,在不同規(guī)模下實現(xiàn)出色的加速,有效助力更高性能的彈性數(shù)據(jù)中心。A100 采用 NVIDIA Ampere 架構,是 NVIDIA 數(shù)據(jù)中心平臺的引擎。A100 的性能比上一代產(chǎn)品提升高達 20 倍,并可劃分為七個 GPU 實例,以根據(jù)變化的需求進行動態(tài)調(diào)整。A100 提供 40GB 和 80GB 顯存兩種版本,A100 80GB 將 GPU 顯存增加了一倍,并提供超快速的顯存帶寬(每秒超過 2 萬億字節(jié) [TB/s]),可處理超大型模型和數(shù)據(jù)集。

CPU:Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2

RAM:64GB DDR4 RDIMM服務器內(nèi)存 *16

SSD1:480GB 2.5英寸SATA固態(tài)硬盤 *1

SSD2:3.84TB 2.5英寸NVMe固態(tài)硬盤 *2

GPU:NVIDIA TESLA A100 80G SXM *8

網(wǎng)卡1:100G 雙口網(wǎng)卡IB 邁絡思 *2

網(wǎng)卡2:25G CX5雙口網(wǎng)卡 *1

4、H800服務器常用配置

H800是英偉達新代次處理器,基于Hopper架構,對跑深度推薦系統(tǒng)、大型AI語言模型、基因組學、復雜數(shù)字孿生等任務的效率提升非常明顯。與A800相比,H800的性能提升了3倍,在顯存帶寬上也有明顯的提高,達到3 TB/s。

雖然論性能,H800并不是最強的,但由于美國的限制,性能更強的H100無法供應給中國市場。有業(yè)內(nèi)人士表示,H800相較H100,主要是在傳輸速率上有所差異,與上一代的A100相比,H800在傳輸速率上仍略低一些,但是在算力方面,H800是A100的三倍。

CPU:Intel Xeon Platinum 8468 Processor,48C64T,105M Cache 2.1GHz,350W *2

內(nèi)存 :64GB 3200MHz RECC DDR4 DIMM *32

系統(tǒng)硬盤: intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4

GPU: NVIDIA Tesla H800 -80GB HBM2 *8

GPU網(wǎng)絡: NVIDIA 900-9×766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8

存儲網(wǎng)絡 :雙端口 200GbE IB *1

網(wǎng)卡 :25G網(wǎng)絡接口卡 雙端口 *1

5、A6000服務器常用配置

CPU:AMD EPYC 7763 64C 2.45GHz 256MB 280W*2

內(nèi)存:64GB DDR4-3200 ECC REG RDIMM*8

固態(tài)盤:2.5″ 960GB SATA 讀取密集 SSD*1

數(shù)據(jù)盤:3.5″ 10TB 7200RPM SATA HDD*1

GPU:NVIDIA RTX A6000 48GB*8

平臺:機架式4U GPU服務器,支持兩顆AMD EPYC 7002/7003系列處理器,最高支持280W TDP,最大支持32根內(nèi)存插槽支持8個3.5/2.5寸熱插拔SAS/SATA/SSD硬盤位(含2個NVMe混合插槽),可選外插SAS或RAID卡,支持多種RAID模式,獨立IPMI管理接口,11xPCIe 4.0插槽。

2200W(2+2)冗余鈦金電源(96%轉(zhuǎn)換效率),無光驅(qū),含導軌。

6、AMD MI210服務器常用配置

CPU:AMD EPYC 7742 64C 2.25GHz 256MB 225W *2

內(nèi)存:64GB DDR4-3200 ECC REG RDIMM*8

固態(tài)盤:2.5″ 960GB SATA 讀取密集 SSD*1

數(shù)據(jù)盤:3.5″ 10TB 7200RPM SATA HDD*1

GPU:AMD MI210 64GB 300W?*8

平臺:機架式4U GPU服務器,支持兩顆AMD EPYC 7002/7003系列處理器,最高支持280W TDP,最大支持32根內(nèi)存插槽支持8個3.5/2.5寸熱插拔SAS/SATA/SSD硬盤位(含2個NVMe混合插槽),可選外插SAS或RAID卡,支持多種RAID模式,獨立IPMI管理接口,11xPCIe 4.0插槽。

2200W(2+2)冗余鈦金電源(96%轉(zhuǎn)換效率),無光驅(qū),含導軌。

7、AMD MI250服務器常用配置

CPU: AMD EPYC? 7773X 64C 2.2GHz 768MB 280W *2

內(nèi)存:64GB DDR4-3200 ECC REG RDIMM*8

固態(tài)盤:2.5″ 960GB SATA 讀取密集 SSD*1

數(shù)據(jù)盤:3.5″ 10TB 7200RPM SATA HDD*1

GPU:AMD MI250 128GB 560W?*6

平臺:機架式4U GPU服務器,支持兩顆AMD EPYC 7002/7003系列處理器,最高支持280W TDP,最大支持32根內(nèi)存插槽支持8個3.5/2.5寸熱插拔SAS/SATA/SSD硬盤位(含2個NVMe混合插槽),可選外插SAS或RAID卡,支持多種RAID模式,獨立IPMI管理接口,11xPCIe 4.0插槽。

2200W(2+2)冗余鈦金電源(96%轉(zhuǎn)換效率),無光驅(qū),含導軌。

原創(chuàng)文章,作者:陳晨,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/577156.html

陳晨陳晨管理團隊

相關推薦

發(fā)表回復

登錄后才能評論