技術(shù)方向決定中美差距,從美國超算安騰看中國彎道超車的路線選擇

360創(chuàng)始人周鴻祎在近日接受媒體采訪時表示,中美在AI上的差距主要在于“確定技術(shù)方向”上,中國的優(yōu)勢是學(xué)習(xí)能力很快,一旦方向確定,中國將有足夠的能力和機會來實現(xiàn)彎道超車。

很顯然,這個樸實的道理也同樣適用于中美競爭的其它領(lǐng)域,比如早些年中美競爭異常激烈的超算領(lǐng)域。本文我們以超算中的細分領(lǐng)域霸主——安騰(Anton)計算機所選擇的技術(shù)路線為啟發(fā),來分析中國在超算領(lǐng)域彎道超車的方向選擇問題。

我們通常所說的超算指的是超級計算機,是一種相較于大型計算機而言運算速度更高、存儲容量更大、功能更為完善的計算機,其運算速度通常在每秒5000萬次以上,并可存儲容量超過百萬個字節(jié)。超級計算機廣泛應(yīng)用于藥物研發(fā)、新材料研發(fā)、飛行器設(shè)計、汽車工程、天氣預(yù)報等需要用到極大運算量的科學(xué)計算領(lǐng)域,目前儼然是左右國與國尖端科研領(lǐng)域競爭結(jié)果的基礎(chǔ)設(shè)施級別的重要科研工具。

一直以來,各國都在追求制造運算處理能力更快的超級計算機。自1942年美國發(fā)明超級計算機以來,中國、日本、英國開始跟隨和進行技術(shù)攻堅,都希望自己的超算能在世界擁有一席之地。2014-2017年期間,中國的“天河二號”和“神威·太湖之光”曾連續(xù)4年占據(jù)全球超級計算機Top500的榜首,但隨后又被日本和美國相繼超越。

技術(shù)方向決定中美差距,從美國超算安騰看中國彎道超車的路線選擇

超級計算機Frontier ?圖片來源:維基百科

借由Top500榜單的變化趨勢可以看到,從2016年到2022年的短短六年時間,最強超算的性能增長了10倍有余,這背后隱藏的是尖端半導(dǎo)體行業(yè)白熱化的技術(shù)競爭。但是,一味地關(guān)注聚光燈下的榜單排名,反而可能會讓我們忽視隱藏在水面之下可能更為重要的“戰(zhàn)場”。

在全球超算Top500的榜單之外,還有一類采取了截然不同底層技術(shù)架構(gòu)路線、專門用來解決特定領(lǐng)域問題的專用超級計算機,相比于Frontier、神威·太湖之光這樣的通用超算來說,這些專用超算并不一味地追求運算的速度是每秒十億億次還是百億億次,而關(guān)注特定領(lǐng)域問題被計算解決的效率。

在這一類專用超級計算機中,最有名的就是美國D. E. Shaw研究所推出的安騰(Anton)超級計算機,安騰計算機專門被用于分子動力學(xué)模擬算法的加速,這是一種對于生命科學(xué)研究和生物制藥研發(fā)領(lǐng)域至關(guān)重要的算法。在計算分子動力學(xué)模擬問題時,安騰計算機的計算效率比全球最強的超算Frontier還要高上近50倍。

技術(shù)方向決定中美差距,從美國超算安騰看中國彎道超車的路線選擇

安騰計算機 ?圖片來源:網(wǎng)絡(luò)

擁有每秒百億億次計算性能的Frontier毫無疑問已經(jīng)是超算界的天花板了,但為何安騰計算機還能在它的基礎(chǔ)上再優(yōu)化數(shù)十倍的性能效率呢?其背后的原因就是技術(shù)路線選擇的差異,使得安騰這樣的專用超算在擅長的計算領(lǐng)域可以發(fā)揮出碾壓Frontier這樣頂級通用超算的能力。

顧名思義,專用超級計算機是一種針對解決特定問題而專門開發(fā)的計算機。由于CPU、GPU等通用的算力芯片無法滿足特定問題對算力性能的要求,專用超級計算機通常使用ASIC芯片(Application Specific Integrated Circuit,專用集成電路),犧牲了靈活性、換來了解決特定問題的極致性能。

簡單來說,ASIC芯片是一種針對特定用途定制化的高效計算芯片。這樣的定制專用芯片,可靠性、保密性、算力、能效,都會比通用芯片(CPU、GPU)更強。這是因為基于芯片所面向的專項任務(wù),芯片的計算能力和計算效率都是嚴格匹配于任務(wù)算法的;芯片的核心數(shù)量,邏輯計算單元和控制單元比例,以及緩存等,整個芯片架構(gòu),也是精確定制的。但也正是由于ASIC芯片針對特定需求定向開發(fā),所以設(shè)計和制造均需要大量資金,和較長時間周期,且一旦定制,無法再次進行寫操作,靈活性較差。

前文提及的安騰計算機就是這樣一臺采用了ASIC芯片架構(gòu)的專用超級計算機。在硬件上,安騰計算機的芯片、主板、布線都由D. E. Shaw研究所特殊設(shè)計。通過特殊設(shè)計的ASIC芯片,盡可能減少數(shù)據(jù)的傳輸和運算,在芯片上分區(qū)域、分精度計算不同任務(wù),突破制約分子動力學(xué)模擬速度的瓶頸——原子間相互作用力的計算。

據(jù)公開資料顯示,“整個安騰計算機的芯片ASIC包括288個核心瓦片和24個邊緣瓦片??偟膩碚f,它提供了5.6Tbps的片外帶寬。較大的Serdes物理PHYs在芯片的兩個邊緣都與這些瓦片相連。瓦片直接相鄰,減少了未使用的芯片面積,簡化了物理設(shè)計。同時,該芯片使用全局時鐘網(wǎng),以最小的偏移實現(xiàn)高時鐘速度;網(wǎng)狀結(jié)構(gòu)節(jié)省了功耗,網(wǎng)絡(luò)只占芯片TDP的5%。為了提高良率,D. E. Shaw研究所設(shè)計了安騰計算機第三代的列級冗余。如果一列有一個壞的瓦片,只要該瓦片的路由器仍在工作,該芯片就仍然可行。因此,它使用288個核心瓦片中的264個來實例化528個幾何核心和528個PPIM,以及66MB的片上存儲器。”

技術(shù)方向決定中美差距,從美國超算安騰看中國彎道超車的路線選擇

第三代安騰計算機的晶片管芯布局

圖片來源: D.E.Shaw研究所

安騰計算機的出現(xiàn)為超級計算機硬件的進一步專業(yè)化提供了令人信服的理由。沒有任何商業(yè)芯片能接近其存儲密度和計算速度。目前,安騰計算機的單臺機器僅采用512個節(jié)點,居然比裝載了幾萬個CPU和GPU節(jié)點的通用超算中心快上100-1000倍!

而安騰計算機帶來的超乎想象的性能提升,也讓美國的制藥公司和生命科學(xué)研究人員享受了長達十余年的科研技術(shù)紅利。美國的科學(xué)家利用安騰計算機率先突破了困擾行業(yè)數(shù)十年的分子動力學(xué)模擬計算效率問題。自上個世紀七八十年代以來,分子動力學(xué)模擬就始終受限于嚴重的計算效率瓶頸,導(dǎo)致無法產(chǎn)業(yè)化應(yīng)用。比如人體內(nèi)典型的大分子蛋白質(zhì)往往由幾十萬到上百萬個原子構(gòu)成,假設(shè)我們用分子動力學(xué)模擬方法計算一個100萬原子的蛋白質(zhì)運動0.001秒的“影片”,哪怕用上1000顆主流CPU并行計算,都需要耗費超過100年的時間,但如果使用安騰計算機,只需要10天就可以算完。美國制藥公司Relay使用安騰計算機第二代(Anton2)對藥物靶點和成藥小分子的結(jié)構(gòu)進行分子動力學(xué)模擬和篩選設(shè)計,用實驗+計算相結(jié)合的近乎降維打擊的研發(fā)方法,僅在18個月內(nèi)、不到 1 億美金就確認RLY-4008等藥物的結(jié)構(gòu),一舉實現(xiàn)了震驚醫(yī)藥行業(yè)的“壯舉”。因為在過去的認知里,一款新藥的研發(fā)最少也需要用至少10年、10億美金才夠!

隨著美國持續(xù)收緊對我國的芯片禁令、不斷單方面對我國升級霸權(quán)行為,我們在超算領(lǐng)域的發(fā)展和趕超之路無疑將會充滿荊棘和泥濘。不過,在過去每一次的技術(shù)革命浪潮中,盡管我們與美國相比缺乏先發(fā)的優(yōu)勢,我們也一次次通過“先跟隨再力爭超越”的競爭策略實現(xiàn)彎道超車,無論是不久前的新能源汽車領(lǐng)域、還是當下正在發(fā)生的人工智能領(lǐng)域都是如此,想必在超算領(lǐng)域也必將不會例外。當然,我們也需要足夠清醒的判斷力,找到彎道超車發(fā)力的正確方向,美國安騰計算機獨樹一幟的技術(shù)路線和取得的巨大成功,對于我們來說無疑是一個需要納入考量的重要方向指引。

原創(chuàng)文章,作者:陳晨,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/635452.html

陳晨陳晨管理團隊

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論