火山引擎推出云原生合規(guī)專區(qū)回灌集群解決方案

隨著汽車行業(yè)智能化和網(wǎng)聯(lián)化的加速發(fā)展,在 5G、人工智能、云計(jì)算、大數(shù)據(jù)等新技術(shù)的加持下,汽車已經(jīng)從交通工具變?yōu)樾乱淮闹悄芙K端。而自動(dòng)駕駛作為汽車新四化(電動(dòng)化、網(wǎng)聯(lián)化、智能化、共享化)的核心,更是被視為汽車科技“皇冠上的明珠”。

根據(jù)相關(guān)預(yù)測(cè),到 2030 年國(guó)內(nèi)智能汽車將達(dá)到 3800 萬(wàn)輛,滲透率達(dá)到 95%,巨大的市場(chǎng)想象空間使自動(dòng)駕駛系統(tǒng)成為汽車廠商的必爭(zhēng)之地。而要實(shí)現(xiàn)這些目標(biāo),廠商還需要采取措施解決自動(dòng)駕駛在技術(shù)、基礎(chǔ)設(shè)施、數(shù)據(jù)、法律法規(guī)等方面的制約。

作為一種基于云端的開(kāi)發(fā)與部署框架,云原生技術(shù)正被越來(lái)越多企業(yè)關(guān)注,用于實(shí)現(xiàn)應(yīng)用的敏捷開(kāi)發(fā)和快速交付,以高效響應(yīng)用戶需求、優(yōu)化用戶體驗(yàn)以及加速業(yè)務(wù)創(chuàng)新。本文以自動(dòng)駕駛系統(tǒng)的開(kāi)發(fā)和部署的關(guān)鍵環(huán)節(jié)之一——數(shù)據(jù)回灌為例,介紹火山引擎云原生服務(wù)如何幫助車企提升效率、加速商業(yè)化進(jìn)程。

什么是數(shù)據(jù)回灌

在汽車軟件研發(fā)領(lǐng)域,目前車企運(yùn)用最廣的開(kāi)發(fā)模式是 RAD (Rap Application Development 快速應(yīng)用開(kāi)發(fā)) 模型,由于其模型構(gòu)圖形似字母 V,又叫 V 模型。這種模型通過(guò)開(kāi)發(fā)和測(cè)試同時(shí)進(jìn)行的方式來(lái)縮短開(kāi)發(fā)周期,每一步都會(huì)對(duì)應(yīng)著嚴(yán)格的測(cè)試步驟,以保證最終系統(tǒng)的可靠性、穩(wěn)定性和安全性。

當(dāng)下大部分自動(dòng)駕駛系統(tǒng)都使用這種開(kāi)發(fā)模式,整個(gè)開(kāi)發(fā)流程通常涉及以下測(cè)試環(huán)節(jié):

●模型在環(huán)(MiL)

●軟件在環(huán)(SiL)

●硬件在環(huán)(HiL)

●車輛在環(huán)(ViL)

1.png

回灌測(cè)試是 HIL 在環(huán)測(cè)試一種方法。

從機(jī)器學(xué)習(xí)平臺(tái)訓(xùn)練出的模型在導(dǎo)入車載域控制器系統(tǒng)時(shí),需要進(jìn)行充分的驗(yàn)證和測(cè)試,確保模型在異構(gòu)硬件環(huán)境上的推理一致性。但如果僅僅依靠道路車測(cè)試,不僅存在測(cè)試時(shí)間周期長(zhǎng)、成本高的問(wèn)題,覆蓋的場(chǎng)景也非常有限。

回灌測(cè)試就是用真實(shí)交通數(shù)據(jù)做仿真的一種方式。工程師可以通過(guò)把被測(cè)試域控制器和仿真系統(tǒng)連接,將從實(shí)際車輛采集到的數(shù)據(jù)再次注入到域控制器中,重現(xiàn)真實(shí)道路運(yùn)行環(huán)境中的場(chǎng)景,對(duì)域控制器的性能和算法進(jìn)行評(píng)估和驗(yàn)證。通過(guò)此方法,研發(fā)團(tuán)隊(duì)可以進(jìn)行大規(guī)模的測(cè)試、驗(yàn)證和優(yōu)化,加速自動(dòng)駕駛系統(tǒng)的開(kāi)發(fā)和部署。

傳統(tǒng)數(shù)據(jù)回灌的挑戰(zhàn)

在真實(shí)生產(chǎn)場(chǎng)景下,用于回灌測(cè)試的回灌系統(tǒng)的結(jié)構(gòu)比較特殊。為了讓訓(xùn)練好的模型經(jīng)過(guò)編譯后,能在異構(gòu)車載芯片上保持準(zhǔn)確、穩(wěn)定的性能,研發(fā)團(tuán)隊(duì)在搭建測(cè)試環(huán)境時(shí),往往需要單獨(dú)購(gòu)買服務(wù)器和域控制器進(jìn)行硬件和軟件集成,成本高、開(kāi)發(fā)難度大、運(yùn)維成本高。主要體現(xiàn)以下幾個(gè)方面:

回灌硬件環(huán)境部署復(fù)雜:被測(cè)域控制器和仿真服務(wù)器之間一般采用網(wǎng)線連接,對(duì)有幾百個(gè)域控制器的回灌測(cè)試環(huán)境,意味著需要同等數(shù)量的物理網(wǎng)線和對(duì)應(yīng)的交換機(jī)端口,布線復(fù)雜,管理難度高。

域控制器資源利用率低:回灌測(cè)試任務(wù)執(zhí)行時(shí)間變化很大,一個(gè)回灌任務(wù)的結(jié)束意味著使用的域控制器可以提供給其他回灌任務(wù)使用,以往的回灌測(cè)試環(huán)境缺少對(duì)動(dòng)態(tài)域控制器資源的管理和調(diào)度,造成整體硬件的利用率低。

回灌任務(wù)自動(dòng)化程度低:回灌任務(wù)缺少統(tǒng)一、標(biāo)準(zhǔn)化的管理和執(zhí)行方式,以往通常采用手動(dòng)部署執(zhí)行,人工干預(yù)的方式?;毓嗳蝿?wù)的執(zhí)行效率低而且錯(cuò)誤率高。

火山引擎回灌集群解決方案

針對(duì)上述開(kāi)發(fā)、部署和使用過(guò)程中問(wèn)題,火山引擎云原生團(tuán)隊(duì)把容器引入到回灌系統(tǒng)的設(shè)計(jì)中,通過(guò)云原生的方式提升資源利用率、簡(jiǎn)化運(yùn)維復(fù)雜度——

1. 被測(cè)域控制器采用 PCI-E 板卡方式集成到仿真服務(wù)器中。

如下圖所示,回灌仿真服務(wù)器和域控制器通過(guò)虛擬網(wǎng)絡(luò)的方式進(jìn)行通訊,去掉了傳統(tǒng)的物理網(wǎng)線連接方式,降低了環(huán)境網(wǎng)絡(luò)布線的復(fù)雜度,同時(shí)為仿真服務(wù)和域控制器之間大量數(shù)據(jù)傳輸提供穩(wěn)定的高帶寬。

2.png

2. 利用 Kubernetes 提供的 device plugin framework,將平臺(tái)全部域控制器抽象成池化可調(diào)度資源被容器平臺(tái)使用。

通過(guò)充分利用 Kubernetes 原生的調(diào)度能力,研發(fā)團(tuán)隊(duì)可以為批量下發(fā)的回灌仿真任務(wù)快速匹配可用域控制器資源并執(zhí)行回灌仿真任務(wù)。在仿真任務(wù)完成后,資源會(huì)被自動(dòng)回收到可用資源池供后續(xù)回灌仿真任務(wù)使用,極大提高了回灌仿真任務(wù)的執(zhí)行效率和域控制器的使用率。

3. 對(duì)回灌仿真程序進(jìn)行容器化改造,制作成為標(biāo)準(zhǔn)的容器鏡像存放在平臺(tái)的鏡像倉(cāng)庫(kù)。

自動(dòng)駕駛工具鏈平臺(tái)通過(guò)標(biāo)準(zhǔn) Kubernetes 接口對(duì)接回灌仿真集群,將回灌仿真任務(wù)作為流程中的一項(xiàng)標(biāo)準(zhǔn)步驟加入到預(yù)定義的自動(dòng)駕駛開(kāi)發(fā)工作流中。平臺(tái)按照 Kubernetes 的標(biāo)準(zhǔn)工作負(fù)載將回灌仿真任務(wù)下發(fā)到回灌仿真集群,并在任務(wù)執(zhí)行過(guò)程中利用 Kubernetes 的 CNI/CSI 組件訪問(wèn)外部對(duì)象存儲(chǔ)和高速并行文件系統(tǒng),讀取回灌仿真所需要的數(shù)據(jù),在域控制器完成計(jì)算任務(wù)后返回仿真結(jié)果由仿真程序存儲(chǔ)到外部存儲(chǔ)。

3.png

通過(guò)上述方案,車企可以獲得以下收益:

●開(kāi)源兼容:兼容開(kāi)源 Kubernetes 接口,有助于將回灌系統(tǒng)對(duì)接已有自動(dòng)駕駛開(kāi)發(fā)平臺(tái);內(nèi)置豐富的 CSI/CNI 組件,提供多類型存儲(chǔ)和網(wǎng)絡(luò)系統(tǒng)的對(duì)接方式,輕松實(shí)現(xiàn)回灌業(yè)務(wù)對(duì)數(shù)據(jù)/外部網(wǎng)絡(luò)的訪問(wèn);

●生態(tài)親和:支持適配豐富類型的自動(dòng)駕駛硬件設(shè)備資源,實(shí)現(xiàn)資源池化統(tǒng)一管理;與車載芯片廠商有廣泛合作,可提供成熟的軟硬件方案;

●簡(jiǎn)單易用:提供成熟、便捷的可視化管理界面,可大幅簡(jiǎn)化回灌平臺(tái)基礎(chǔ)資源層運(yùn)維工作;

●靈活觀測(cè):支持設(shè)備健康狀態(tài)檢測(cè);支持對(duì)接外部監(jiān)控 Prometheus 系統(tǒng),配合用戶自定義 Grafana 面板,實(shí)現(xiàn)回灌業(yè)務(wù)的狀態(tài)監(jiān)控、告警。

汽車行業(yè)落地案例

某汽車主機(jī)廠企業(yè)計(jì)劃使用國(guó)內(nèi)頭部汽車智能芯片公司的 AI 芯片作為其一款主打車型的自動(dòng)駕駛域控制器的算法處理器。為加速該車型的開(kāi)發(fā),同時(shí)保障系統(tǒng)的穩(wěn)定性、安全性,該企業(yè)采用了火山引擎的云原生回灌解決方案。

4.png

該客戶的回灌集群使用了 8 臺(tái)回灌服務(wù)器作為工作節(jié)點(diǎn),每個(gè)回灌服務(wù)器通過(guò) PCI-E 掛載了 32 個(gè)集成了 AI 芯片的域控制器。在火山引擎云原生團(tuán)隊(duì)的支持下,客戶通過(guò) veStack 敏捷版實(shí)現(xiàn)了對(duì) 256 個(gè)域控制器的統(tǒng)一容器化管理和調(diào)度。同時(shí)結(jié)合業(yè)務(wù)使用方式,veStack 敏捷版也針對(duì)性提供了域控制器的健康檢查方法和配合系統(tǒng)升級(jí)需要用到的域控制器手動(dòng)離線、上線方法,幫助客戶構(gòu)建起完善的監(jiān)控和故障感知能力。

在數(shù)據(jù)合規(guī)方面,為符合國(guó)家針對(duì)自動(dòng)駕駛的相關(guān)規(guī)定,該客戶使用的自動(dòng)駕駛工具鏈平臺(tái)均部署在火山引擎智駕專區(qū),回灌集群通過(guò)標(biāo)準(zhǔn) Kubernetes 接口與自動(dòng)駕駛工具鏈平臺(tái)進(jìn)行對(duì)接。

結(jié)合客戶自動(dòng)駕駛工具鏈平臺(tái)的隊(duì)列能力,上述回灌系統(tǒng)能支持 7×24 小時(shí)并行 256 的回灌任務(wù),極大提高了回灌測(cè)試效率和資源的使用率。

結(jié)語(yǔ)

隨著汽車行業(yè)智能化和網(wǎng)聯(lián)化的加速發(fā)展,軟件定義汽車已經(jīng)成為行業(yè)的共識(shí),企業(yè)需要構(gòu)建新的軟件開(kāi)發(fā)能力來(lái)應(yīng)對(duì)軟件定義時(shí)代的挑戰(zhàn),并通過(guò)安全的方式將硬件、軟件和云服務(wù)整合到下一代汽車平臺(tái)和組件中。

火山引擎云原生團(tuán)隊(duì)目前已經(jīng)服務(wù)了多家頭部車企和造車新勢(shì)力,幫助客戶充分利用和發(fā)揮云平臺(tái)的彈性和分布式優(yōu)勢(shì)。未來(lái),團(tuán)隊(duì)也將持續(xù)打磨產(chǎn)品和解決方案,為更多企業(yè)注入強(qiáng)勁創(chuàng)新動(dòng)力。

本文轉(zhuǎn)載自:,不代表科技訊之立場(chǎng)。原文鏈接:http://zl.yisouyifa.com/html/240618/114912444080613.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評(píng)論