GPU之后，NPU再成標配，手機、PC如何承載AI大模型？

陳晨 ? 2024年3月12日 10:21:11 ? 產經

摘要：AI產品開發(fā)者需要先行一步，早一些讓用戶體驗自己的產品，和用戶建立連接，培養(yǎng)粘性，從而在競爭中占得先機。

　　2024注定是AI行業(yè)熱鬧非凡的一年。雖然剛剛進入3月份，但是關于AI的新聞已經多次占據(jù)了頭條。就在上個月，OpenAI發(fā)布了文字生成視頻的大模型Sora，其逼真的效果直接清空了在這個細分賽道苦苦耕耘的創(chuàng)業(yè)者。幾天后，英偉達市值站上2萬億美元，成為了歷史上最快實現(xiàn)從1萬億到2萬億美元市值的企業(yè)。正所謂“當你發(fā)現(xiàn)金礦，最好的生意不是挖礦而是賣鏟子”，英偉達成為了AI時代“軍備競賽”的最大贏家。

　　就在大家感嘆“世界上只有兩種AI，一種叫OpenAI，一種叫其他AI”的時候，沉寂了許久的Anthropic放出王炸，這家由OpenAI前研究副總裁創(chuàng)立的公司，發(fā)布了最新的Claude3模型，各項指標已經全面超越了GPT4。

　　AI行業(yè)的風起云涌，也昭示了這個行業(yè)還處在一個初級階段。技術迭代太快，暫時領先的企業(yè)可能在一夜之間就被新技術顛覆。一些眼花繚亂的新技術，雖然已經問世，但遲遲不公開或者沒有部署。比如上文提到的Sora，截至發(fā)文，還沒有正式向公眾開放。

　　生成式AI的研發(fā)和本地部署之間存在鴻溝。目前，大眾使用的生成式AI產品往往是部署在云端而在本地訪問(比如ChatGPT網頁)，但這無法滿足所有需求，并且會產生一些隱患。

　　首先，隨著大模型越來越復雜，云端和本地之間的傳輸在有限帶寬下變得捉襟見肘，比如一架波音787飛機每秒鐘產生5G的數(shù)據(jù)，如果上傳到云端、計算、輸出結果再返回，飛機可能已經飛出去幾公里了(按照800公里/小時估算)。如果在飛機上使用AI功能但是在云端部署，這樣的傳輸速度是無法滿足要求的。

　　此外，一些用戶敏感數(shù)據(jù)、隱私數(shù)據(jù)，是否一定要上云?顯然放在本地比云端更讓用戶放心。

　　不論生成式AI多么強大，如何部署到本地始終是一個無法繞開的問題。這是行業(yè)發(fā)展的趨勢，雖然目前面臨一些困難。

　　困難在于，如何把“大模型”裝入“小設備”。注意，這里的“大小”是相對而言的。云端計算的背后可能是一個占地幾萬平方米的計算中心，而本地部署卻要讓生成式AI在你的手機上跑起來。手機沒有液氮冷卻，也沒有無窮無盡的電力，該如何部署AI呢?

　　異構計算，一種可能的解決方案?

　　高通的異構計算AI引擎(以下皆稱作高通AI引擎)為行業(yè)提供了一種可行的解決方案。即通過CPU、GPU、NPU以及高通傳感器中樞和內存子系統(tǒng)的協(xié)作，實現(xiàn)了AI部署和大幅度提升AI體驗的目的。

圖：專門的工業(yè)設計讓不同計算單元更緊湊來源：高通

　　不同類型的處理器所擅長的工作不同，異構計算的原理就是讓“專業(yè)的人做專業(yè)的事”。CPU擅長順序控制，適用于需要低延時的應用場景，同時，一些較小的傳統(tǒng)模型如卷積神經網絡模型(CNN)，或一些特定的大語言模型(LLM)，CPU處理起來也能得心應手。而GPU更擅長面向高精度格式的并行處理，比如對畫質要求非常高的視頻、游戲。

　　CPU和GPU出鏡率很高，大眾已經相當熟悉，而NPU相對而言更像一種新技術。NPU即神經網絡處理器，專門為實現(xiàn)低功耗、加速AI推理而打造。當我們在持續(xù)使用AI時，需要以低功耗穩(wěn)定輸出高峰值性能，NPU就可以發(fā)揮最大優(yōu)勢。

　　舉個例子，當用戶在玩一款重負載的游戲，此時GPU會被完全占用，或者用戶在瀏覽多個網頁，CPU又被完全占用。此時，NPU作為真正的AI專用引擎就會負擔起和AI有關的計算，保證用戶的AI體驗流暢。

　　總結起來說就是，CPU和GPU是通用處理器，為靈活性而設計，易于編程，本職工作是負責操作系統(tǒng)、游戲和其他應用。NPU則為AI而生，AI是它的本職工作，通過犧牲部分易編程特性而實現(xiàn)了更高的峰值性能和能效，一路為用戶的AI體驗護航。

　　當我們把 CPU、GPU、NPU 以及高通傳感器中樞和內存子系統(tǒng)集成在一起，就是異構計算架構。

圖：高通AI引擎包括Hexagon NPU、Adreno GPU、高通Oryon或 Kryo CPU、高通傳感器中樞和內存子系統(tǒng) 來源：高通

　　高通AI引擎整合了高通 Oryon 或 Kryo CPU、 Adreno GPU 、 Hexagon NPU 以及高通傳感器中樞和內存子系統(tǒng)。Hexagon NPU作為其中的核心組件，經過多年的升級迭代，目前已達到業(yè)界領先的AI處理水平。以手機平臺為例，集成高通 AI 引擎的第三代驍龍 8 支持行業(yè)領先的LPDDR5x內存，頻率高達4.8GHz，使其能夠以非常高速的芯片內存讀取速度運行大型語言模型，如百川、Llama 2等，從而實現(xiàn)非?？斓膖oken生成速率，為用戶帶來全新的體驗。

圖：NPU隨著不斷變化的AI用例和模型持續(xù)演進，實現(xiàn)高性能低功耗來源：高通

　　高通對NPU的研究，并不是近幾年才開始的。如果要追溯Hexagon NPU的起源，要回到2007年，也就是生成式AI走入公眾視野的15年前。高通發(fā)布的首款Hexagon DSP在驍龍平臺上亮相，DSP控制和標量架構成為了高通未來多代NPU的基礎。

　　8年后，也就是2015年，驍龍820處理器集成了首個高通AI引擎;

　　2018年，高通在驍龍855中為Hexagon NPU增加了張量加速器;

　　2019年，高通在驍龍865上擴展了終端側AI用例，包括AI成像、AI視頻、AI語音等功能;

　　2020年，Hexagon NPU迎來變革型架構更新。標量、向量、張量加速器融合，這為高通未來的NPU架構奠定了基礎;

　　2022年，第二代驍龍8中的Hexagon NPU引入了一系列重大技術提升。微切片技術提升了內存效率，功耗降低繼續(xù)降低并且實現(xiàn)了4.35倍的AI性能提升。

　　2023年10月25日，高通正式發(fā)布第三代驍龍8。作為高通技術公司首個專為生成式AI而精心打造的移動平臺，其集成的Hexagon NPU是目前高通面向生成式AI最新、也是最好的設計。

　　由于高通為AI開發(fā)者和下游廠商提供的是全套解決方案(這部分內容會在第三部分詳細敘述)，并非單獨提供芯片或者某個軟件應用。這意味著在硬件設計上和優(yōu)化上，高通可以通盤考慮，找出目前AI開發(fā)的瓶頸，做有針對性地提升。

　　比如，為何要特別在意內存帶寬這個技術點?當我們把視角從芯片上升到AI大模型開發(fā)，就會發(fā)現(xiàn)內存帶寬是大語言模型token生成的瓶頸。第三代驍龍8的NPU架構之所以能幫助加速開發(fā)AI大模型，原因之一便在于專門提升了內存帶寬的效率。

　　這種效率的提升主要受益于兩項技術的應用。

　　第一是微切片推理。通過將神經網絡分割成多個獨立執(zhí)行的微切片，消除了高達10余層的內存占用，此舉最大化利用了Hexagon NPU中的標量、向量和張量加速器并降低功耗。第二是本地4位整數(shù)(INT4)運算。它能將INT4層和神經網絡和張量加速吞吐量提高一倍，同時提升了內存帶寬效率。

圖：第三代驍龍8的Hexagon NPU以低功耗實現(xiàn)更佳的AI性能

　　2月26日，世界移動通信大會(MWC 2024)在巴塞羅那拉開帷幕?；隍旪圶 Elite，高通向全世界展示了全球首個在終端側運行的超過70億參數(shù)的大型多模態(tài)語言模型(LMM)。該模型可接收文本和音頻輸入(如音樂、交通環(huán)境音頻等)，并基于音頻內容生成多輪對話。

　　所以，在集成了Hexagon NPU的移動終端上，會有怎樣的AI體驗?以及它是如何做到的?高通詳細拆解了一個案例。

　　借助移動終端的AI旅行助手，用戶可以直接對模型提出規(guī)劃旅游行程的需求。AI助手可以立刻給到航班行程建議，并且通過語音對話調整輸出結果，最后通過Skyscanner插件創(chuàng)建完整航班日程。

　　這種一步到位的體驗是如何實現(xiàn)的?

　　第一步，用戶的語音通過自動語音識別(ASR)模型Whisper轉化成文本。該模型有2.4億個參數(shù)，主要在高通傳感器中樞上運行;

　　第二步，利用Llama 2或百川大語言模型基于文本內容生成文本回復，這一模型在Hexagon NPU上運行;

　　第三步，通過在CPU上運行的開源TTS(Text to Speech)模型將文本轉化為語音;

　　最后一步，通過調制解調器技術進行網絡連接，使用Skyscanner插件完成訂票操作。

　　行業(yè)井噴前夕，開發(fā)者需要搶占先機

　　使用不同的工具測試驍龍和高通平臺的AI性能表現(xiàn)，可以發(fā)現(xiàn)其得分比同類競品高出幾倍。從魯大師AIMark V4.3基準測試結果來看，第三代驍龍8的總分相較競品B高出5.7倍，而相較競品C高出7.9倍。

　　在安兔兔AITuTu基準測試中，第三代驍龍8的總分比競品B高出6.3倍。針對MLCommon MLPerf推理的不同子項，包括圖像分類、語言理解以及超級分辨率等，也進行了詳盡的比較。

　　進一步對比驍龍X Elite與其他X86架構競品，在ResNet-50、DeeplabV3等測試中，驍龍X Elite表現(xiàn)出明顯的領先地位，其基準測試總分分別是X86架構競品A的3.4倍和競品B的8.6倍。因此，在PC端，無論是運行Microsoft Copilot，還是進行文檔摘要、文檔撰寫等生成式AI應用，體驗都十分流暢。

　　領先的AI性能不全是高通AI引擎的功勞，確切的說，高通對AI廠商的賦能是全方位的。

　　首先是高通AI引擎。它包括Hexagon NPU、Adreno GPU、高通Oryon CPU(PC平臺)、高通傳感器中樞和內存子系統(tǒng)。專門的工業(yè)設計、不同部件之間良好的協(xié)同，這款異構計算架構為終端側產品提供了低功耗、高能效的開發(fā)平臺。

　　基于先進的硬件，高通又推出了AI軟件棧(高通AI Stack)。這款產品的誕生是為了解決AI開發(fā)中的頑疾——同一個功能，針對不同平臺要多次開發(fā)，重復勞動。AI Stack支持目前所有的主流AI框架，OEM廠商和開發(fā)者可以在平臺上創(chuàng)建、優(yōu)化和部署AI應用，并且能實現(xiàn)“一次開發(fā)，全平臺部署”，大大減少了研發(fā)人員的重復勞動。

圖：高通AI軟件棧幫助開發(fā)者“一次開發(fā)，全平臺部署” 來源：高通

　　此外，還有高通在MWC2024上剛剛發(fā)布的AI Hub。AI Hub是一個包含了近80個AI模型的模型庫，其中既有生成式AI模型，也有傳統(tǒng)AI模型，還包括圖像識別或面部識別模型，百川、Stable Diffusion、Whisper等模型。開發(fā)者可以從AI Hub中選取想要使用的模型生成二進制插件，做到AI 開發(fā)的“即插即用”。

　　綜合來說，如果縱向看深度，高通在硬件(AI引擎)、軟件(AI Stack)和素材庫(AI Hub)三個維度全面加速廠商的AI開發(fā)進度。橫向看覆蓋廣度，高通的產品已經覆蓋了幾乎所有的終端側設備(第三代驍龍8支持手機等終端，X Elite賦能AI PC產品)。

　　AI應用處于井噴前的醞釀期。

　　在教育領域，AI能針對學生的學習能力和進度制定個性化的教學方案;在醫(yī)學領域， AI可以用來發(fā)掘全新的抗生素類型;在養(yǎng)老方面，未來在一些社會老齡化問題比較嚴重的地區(qū)，可以利用AI終端收集老年人家中的所有個人數(shù)據(jù)，從而幫助預防緊急醫(yī)療事故。

　　之所以叫“井噴前”，正是因為還沒有大規(guī)模部署。另一方面，AI應用，作為最容易讓用戶產生粘性的產品之一，具有很強的先發(fā)優(yōu)勢效應。

　　AI產品開發(fā)者需要先行一步，早一些讓用戶體驗自己的產品，和用戶建立連接，培養(yǎng)粘性，從而在競爭中占得先機。

　　(文章轉載自DeepTech深科技)

原創(chuàng)文章，作者：陳晨，如若轉載，請注明出處：http://2079x.cn/article/636233.html

陳晨管理團隊

0 0

產經

加速文旅、娛樂行業(yè)數(shù)字化發(fā)展，PICO 正式推出XR大空間內容運營解決方案

近年來，線下沉浸娛樂行業(yè)迎來了新一波熱潮。伴隨這股風潮，許多線下文旅景區(qū)、文博場館、商超運營者們，開始爭相打造自己的內容IP，開發(fā)各類大空間XR內容來打造虛擬體驗，借助沉浸式線下X…

陳晨
1小時前
產經

安吉爾37周年感恩回饋季，全天候直播開啟福利大派送

今年是安吉爾成立37周年，在周年慶之際，安吉爾開啟感恩回饋季，以一系列活動回饋廣大消費者。據(jù)了解，在10月26日，安吉爾將在抖音“安吉爾福利官”直播間和天貓官方旗艦店雙平臺同步開啟…

陳晨
1小時前
2024科大訊飛全球1024開發(fā)者節(jié)，AI文娛論壇亮點紛呈

10月24日，2024科大訊飛全球1024開發(fā)者節(jié)AI文娛論壇在合肥圓滿舉辦。論壇以“重構內容與表達”為主題，旨在探討AI時代下文娛產業(yè)的最新趨勢，見證訊飛AI文娛業(yè)務的重大發(fā)布，…

陳晨
產經 1小時前
產經

安吉爾攜三大場景凈水解決方案，亮相新加坡國際食品與酒店展覽會

10月22日至25日，新加坡國際食品與酒店展覽會（FHA HoReCa 2024）成功舉辦。FHA HoReCa是亞太地區(qū)最大的餐飲、酒店和食品服務行業(yè)展會之一，為餐飲和酒店行業(yè)的…

陳晨
1小時前
產經

易慧智能發(fā)布汽車行業(yè)大模型評測集，并重磅推出模型路由技術方案

10月25日，汽車行業(yè)AI產品和業(yè)務解決方案提供商易慧智能發(fā)布了汽車行業(yè)首個大模型評測集。此次評測旨在全面評估市面上主流大模型在汽車行業(yè)中的實際應用效果，特別關注于汽車營銷場景的應…

陳晨
1小時前
產經

訊飛星火與華為數(shù)據(jù)存儲強強聯(lián)手，“以存強算” 助力AI集群算力利用率飆升30%

在風云變幻的AI大模型時代，科大訊飛與華為的聯(lián)合拓展令人印象深刻。過去幾年來，雙方協(xié)同創(chuàng)新突破重重障礙，一次次證明國產算力基礎設施可以支撐國產AI大模型良性發(fā)展，在關鍵性能和體驗上…

陳晨
4小時前
產經

MagicOS 9.0發(fā)布，榮耀互聯(lián)網服務革新AI體驗

2024年10月23-24日，以“見證AI魔法”為主題的榮耀MagicOS 9.0發(fā)布會及開發(fā)者大會（HGDC.2024）在北京中關村國際創(chuàng)新中心舉辦。作為行業(yè)首個搭載跨應用開放生…

陳晨
4小時前
產經

抖音電商雙11開門紅｜差異化作者生態(tài)成就好內容、促成好銷量

雙11熱度逐漸升溫，漸入高潮。為何今年雙11各大電商平臺集體搶跑，國慶假期一結束便立刻進入緊張的雙11籌備階段。電商競爭走向深水區(qū)，電商行業(yè)格局也邁進嶄新的階段。一、直播電商，…

陳晨
4小時前
科脈驚艷亮相第十六屆中國商業(yè)信息化行業(yè)大會

當下，在數(shù)字化和AI技術的落地應用推動中，零售行業(yè)的格局正在以前所未有的速度被顛覆、被重塑。如何借助這股技術浪潮，對傳統(tǒng)管理、經營及商業(yè)模式進行創(chuàng)新重塑，提升企業(yè)生命力與核心競爭力…

陳晨
產經 8小時前
JetBrains 面向非商業(yè)用途免費提供 WebStorm 和 Rider

領先的專業(yè)軟件開發(fā)工具創(chuàng)造者 JetBrains 宣布為 WebStorm（JavaScript 和 TypeScript IDE）以及 Rider（跨平臺 .…

陳晨
產經 8小時前
產經

技嘉科技宣布 AORUS Z890 主板正式上市

AI D5黑科技2.0技術全面釋放強勁性能全球電腦品牌技嘉科技（GIGABYTE）宣布 AORUS Z890 系列主板現(xiàn)已正式開賣。該系列主板專為釋放新一代 Intel? Cor…

陳晨
8小時前
標準融合賦能芯片開發(fā)測試：加特蘭獲2024第六屆金輯獎最佳技術實踐應用獎

10月24日，第十二屆汽車與環(huán)境創(chuàng)新論壇暨第六屆金輯獎中國汽車新供應百強頒獎盛典在上海召開。加特蘭微電子軟件研發(fā)負責人鄭珉楠應邀出席，并就“標準協(xié)同——助力汽車芯片高效開發(fā)與測試”…

陳晨
產經 8小時前
產經

問界新M7再迎升級，HUAWEI ADS 3.0帶來開新車的超凡體驗

進入秋季，汽車市場迎來了傳統(tǒng)的銷售旺季，各大品牌紛紛使出渾身解數(shù)，以爭搶市場份額。其中，問界新M7系列的市場表現(xiàn)尤為出色，截止10月20日，今年累計銷量已超過16.45萬輛，在眾多…

陳晨
8小時前
產經

10月31日，迪麗熱巴空降德施曼品牌直播間，暢聊居家生活美學

10月31日晚8點30分,德施曼智能鎖代言人迪麗熱巴,將空降德施曼官方直播間,與德施曼董事長/CEO祝志凌一起暢聊現(xiàn)代智能家居生活的無限可能,分享關于居家安全與儀式感的獨到見解。屆…

陳晨
8小時前
產經

2024驍龍峰會：自研Oryon CPU登陸手機、汽車丨驍龍8至尊版、驍龍至尊版汽車平臺

10月22日，高通舉行了2024驍龍峰會，正式推出了全新旗艦移動平臺——驍龍8至尊版。　　不只是全新命名那么簡單，驍龍8至尊版配備了下一代定制高通Oryon CPU，在Adren…

陳晨
8小時前
高通史詩級驍龍上線，安蒙說時代變了，AI First的未來，是所有App都是“王牌應用”

　　從“無線通信公司”轉型為面向新一代AI處理時代的“連接計算公司”，在過去很長一段時間以來，都是高通標榜自身的主基調，而今年在夏威夷茂宜島如期舉行的驍龍峰會，話題正是從這一基調展…

陳晨
產經 8小時前
補齊拼圖后，高通終于猛推“三端歸一”

當?shù)貢r間10月20日下午，記者抵達美國夏威夷茂宜島，參加10月21日開啟的高通驍龍峰會。在峰會的前兩個主題日，高通在智能手機和汽車平臺拿出了三款驍龍Elite(至尊版)新品。其中最…

陳晨
產經 8小時前
產經

國家能源集團攜手?？低曆邪l(fā)攻克融合光譜煤質快檢技術

首次實現(xiàn)新型煤質快檢技術在煤炭全產業(yè)鏈示范應用打造“在線測量+數(shù)字監(jiān)管”煤質管控新模式。 10月24日上午10點，在國家能源集團準能集團黑岱溝露天煤礦，安裝于準能選煤廠…

陳晨
8小時前
官宣！中國移動云盤純血鴻蒙版上線

10月22日，華為正式發(fā)布了全新HarmonyOS NEXT。作為華為鴻蒙生態(tài)的先鋒力量，中國移動云盤早在HarmonyOS NEXT內測階段就已率先完成原生應用核心版本的開發(fā)，同…

陳晨
產經 9小時前
跑分達308萬，Oryon CPU很能打！高通驍龍8至尊版性能實測

現(xiàn)在高通新一代旗艦移動平臺——驍龍8至尊版(驍龍8?Elite)已經發(fā)布，作為首款集成高通定制Oryon?CPU的旗艦移動平臺，其CPU、GPU以及AI性能均有大幅提升。　　簡單…

陳晨
產經 9小時前