讓公有云服務(wù)“寧安如夢”的“定心丸”在哪里?

讓公有云服務(wù)“寧安如夢”的“定心丸”在哪里?

電視劇《寧安如夢》正在熱播中,該劇講述了主人公在經(jīng)歷人生的重大風(fēng)險(xiǎn)后,重獲新生再活一遍,以確定性的方式抵御和化解原有的重大風(fēng)險(xiǎn)。然而,在現(xiàn)實(shí)的生活中,卻沒有這樣的重來機(jī)會。

2023年11月13日,Gartner發(fā)布了2024全球最終用戶公有云支出預(yù)測,預(yù)計(jì)2024年將增長20.4%達(dá)6788億美元?!霸埔呀?jīng)必不可少”, Gartner分析師認(rèn)為。但同時,公有云的安全高可用,卻成為企業(yè)數(shù)字化轉(zhuǎn)型的高風(fēng)險(xiǎn)事件。

2023年,一方面是大模型和生成式AI加速了上云進(jìn)程,另一方面是公有云宕機(jī)事件頻出而凸顯基礎(chǔ)質(zhì)量問題。2023年是公有云第17個年頭,公有云也已經(jīng)渡過了市場炒作高峰期而進(jìn)入了主流,Gartner曾預(yù)計(jì)到2025年全球50%的企業(yè)應(yīng)用將遷移到主流公有云上,但也將帶來“云集中”風(fēng)險(xiǎn)——一旦單個云服務(wù)商出現(xiàn)故障,將導(dǎo)致業(yè)務(wù)發(fā)生嚴(yán)重中斷。

從2023年來看,單個云服務(wù)商出現(xiàn)重大故障事件,已經(jīng)影響了市場對公有云可靠性和安全性的信心。例如,2023年11月8日,澳大利亞電信運(yùn)營商Optus的一次故障事件導(dǎo)致澳大利亞40% 的人口超過12個小時無法正常上網(wǎng),11月12日阿里云發(fā)生嚴(yán)重故障,導(dǎo)致阿里巴巴大量產(chǎn)品無法連接,除了阿里系幾乎全線產(chǎn)品出現(xiàn)故障外,整數(shù)云、理工小蜜蜂、餓樂送、cool easy、IOTTEC、納思云、語雀等平臺均受到影響。

隨著越來越多的企業(yè)上云,從上IaaS到上PaaS和SaaS,公有云服務(wù)商面臨著硬件、軟件和服務(wù)的多重安全與高可用挑戰(zhàn)。

不過,總體來說,公有云出現(xiàn)大面積問題的概率依然很低,公有云仍然是數(shù)字化轉(zhuǎn)型的基礎(chǔ)設(shè)施。而企業(yè)上云,特別是大規(guī)模核心業(yè)務(wù)上云的企業(yè),要做好多云戰(zhàn)略,選擇多個云計(jì)算服務(wù)商,合理分配資源,做好冗余災(zāi)備。那么,如何選一家穩(wěn)定可靠的云服務(wù)商?

搭建穩(wěn)定可靠的運(yùn)維體系成為云廠商“必修課”

當(dāng)前,公有云服務(wù)商的規(guī)模不斷擴(kuò)大,企業(yè)上云進(jìn)程不斷深化,從“業(yè)務(wù)上云”邁向“深度用云”已經(jīng)成為行業(yè)共識。根據(jù)Gartner的2022~2024全球最終用戶公有云支出數(shù)據(jù)及預(yù)測,PaaS、SaaS、BPaaS和DaaS等支出占公有云支出的75%,其中PaaS、BPaaS和DaaS支出占了近40%。也就是說,越來越多的企業(yè)用戶直接在公有云上開發(fā)和部署應(yīng)用。

對于公有云服務(wù)商來說,IT運(yùn)維正在面臨著顛覆性的變化,正從保障設(shè)備穩(wěn)定的防守型運(yùn)維轉(zhuǎn)向支撐業(yè)務(wù)敏捷的進(jìn)攻型運(yùn)維,從關(guān)注自身平臺轉(zhuǎn)向關(guān)注客戶應(yīng)用,這個轉(zhuǎn)型的過程對公有云服務(wù)商提出了艱巨挑戰(zhàn),特別是當(dāng)越來越多的政企客戶將自身的業(yè)務(wù)直接連入公有云平臺時,如何從硬件、軟件和服務(wù)等維度,既保證客戶業(yè)務(wù)的快速迭代又保證業(yè)務(wù)的安全穩(wěn)定高可用,這是公有云服務(wù)商生存和發(fā)展的根本。

以華為云為例,過去幾年的高速發(fā)展,業(yè)務(wù)量上千倍的增長,經(jīng)歷了從“慢”向“快”的轉(zhuǎn)變,運(yùn)維如何經(jīng)受考驗(yàn)?這個過程中也經(jīng)歷了深刻變革。華為云基于ITIL標(biāo)準(zhǔn),打造標(biāo)準(zhǔn)化運(yùn)維管理體系,引入SRE文化,構(gòu)建SRE確定性運(yùn)維體系,同時實(shí)施高可用架構(gòu)與方案,引入動態(tài)風(fēng)險(xiǎn)治理,以及不斷探索AIOps智能運(yùn)維。

華為云從2017年開始實(shí)踐SRE,目前已經(jīng)成為國內(nèi)最大的SRE團(tuán)隊(duì)之一。本質(zhì)上,SRE是用軟件工程的思維和方法解決復(fù)雜的運(yùn)維問題,從被動響應(yīng)為主,演進(jìn)為構(gòu)建主動預(yù)防式運(yùn)維的軟件工程能力為主。在實(shí)踐積累的基礎(chǔ)上,華為云SRE提出了“確定性運(yùn)維”理念,即通過一套完備的工程方法,以華為云SRE的高可用架構(gòu)設(shè)計(jì)、動態(tài)風(fēng)險(xiǎn)治理和高度智能的運(yùn)維框架,讓現(xiàn)網(wǎng)擁有確定性的質(zhì)量結(jié)果,支撐高質(zhì)量運(yùn)維實(shí)現(xiàn)。

高可用架構(gòu)是華為云SRE的一大亮點(diǎn),高可用架構(gòu)讓華為云服務(wù)的軟件在前端就具備高可靠、高可用的能力,具有確定性的失效率、確定性的恢復(fù)時長結(jié)束、確定性的爆炸半徑。從2017年起,華為云SRE團(tuán)隊(duì)積極介入到云服務(wù)的開發(fā)前端,將后端的運(yùn)維經(jīng)驗(yàn)和運(yùn)維訴求帶到前端的開發(fā)設(shè)計(jì)過程中,使得現(xiàn)網(wǎng)在出現(xiàn)非預(yù)期的故障時,通過提前預(yù)埋的可恢復(fù)性和爆炸半徑控制能力,迅速隔離影響,實(shí)現(xiàn)即時恢復(fù)。

此外,華為云高度重視數(shù)據(jù)中心災(zāi)備性能,提供同城AZ (Availability Zone)內(nèi)、跨AZ、異地跨Region的兩地三中心容災(zāi)方案和1000公里以上的城市級容災(zāi)能力,支持流式容災(zāi),保障業(yè)務(wù)平穩(wěn)運(yùn)行,避免單點(diǎn)、多點(diǎn)故障造成客戶業(yè)務(wù)停頓。

京東云則通過混沌工程理論,結(jié)合多年穩(wěn)定性治理經(jīng)驗(yàn)入手,建成京東云云泰穩(wěn)定性主動管理平臺。實(shí)現(xiàn)主動發(fā)現(xiàn)和治理業(yè)務(wù)連續(xù)性風(fēng)險(xiǎn),提供一站式可見、可查、可管、可控的治理方案,力求做到先于用戶發(fā)現(xiàn)問題、先于感知修復(fù)問題,為云平臺穩(wěn)定、云上業(yè)務(wù)穩(wěn)定提供商業(yè)服務(wù)的可用性從99.975%提升為99.995%。

可用性的扎實(shí)內(nèi)功,才是云客戶的“定心丸”

趣丸科技是一家集興趣社交、電子競技、人工智能于一體的創(chuàng)新型科技企業(yè)。華為云承載趣丸70%以上的IT業(yè)務(wù)運(yùn)行,包含計(jì)算、存儲和網(wǎng)絡(luò)等基礎(chǔ)底座,業(yè)務(wù)運(yùn)行還使用了華為云大量的數(shù)據(jù)庫、中間件等高級服務(wù),華為云為趣丸核心業(yè)務(wù)的高可靠、高穩(wěn)定運(yùn)行提供7*24保駕護(hù)航。

更進(jìn)一步,華為云基于確定性運(yùn)維實(shí)踐,幫助趣丸在大模型時代下,應(yīng)對業(yè)務(wù)上云后的安全可信、穩(wěn)定可靠、資源高效、業(yè)務(wù)敏捷等挑戰(zhàn),進(jìn)一步探索LLMOps等,加速企業(yè)高質(zhì)量增長,讓運(yùn)維成為智能世界變革的加速器,推動趣丸科技的用戶粘性不斷增強(qiáng)。

服務(wù)所有“華為”品牌的各類終端的華為終端云更為典型。作為華為云的最大內(nèi)部客戶之一,華為終端云從2017年開始全面上云。華為終端云業(yè)務(wù)承載了全球十億級用戶,業(yè)務(wù)場景越來越多,運(yùn)維場景也越來越復(fù)雜。通過建設(shè)SRE能力,華為終端云全球三個運(yùn)維中心有效協(xié)同,保障連續(xù)5年業(yè)務(wù)可用性SLA 99.99%,達(dá)成無重大連續(xù)性和安全事故的挑戰(zhàn)目標(biāo)。

在汽車行業(yè),數(shù)字化轉(zhuǎn)型是一個復(fù)雜過程,需要解決業(yè)務(wù)系統(tǒng)龐大、業(yè)務(wù)系統(tǒng)應(yīng)用多、分布廣、跨系統(tǒng)、跨區(qū)域、跨應(yīng)用的調(diào)用頻繁等問題,業(yè)務(wù)所用的系統(tǒng)由成百上千個應(yīng)用服務(wù)組成,服務(wù)之間的關(guān)系錯綜復(fù)雜。華為云通過應(yīng)用運(yùn)維管理服務(wù)(AOM)、云日志服務(wù)(LTS)、應(yīng)用性能管理服務(wù)(APM)等服務(wù),實(shí)現(xiàn)全鏈路管理,提高運(yùn)維效率,幫助汽車業(yè)務(wù)應(yīng)用系統(tǒng)穩(wěn)定運(yùn)行,提升用戶體驗(yàn)。

“讓穩(wěn)定可靠成為華為云核心競爭力”,這條橫幅掛在松山湖華為云運(yùn)維中心最醒目的位置,華為云提出的“一切皆服務(wù)”之“根”是質(zhì)量和平臺的穩(wěn)定性。華為公有云業(yè)務(wù)總裁高江海曾表示,唯有時刻保持敬畏之心,才能真正服務(wù)好客戶、有質(zhì)量地“活下去”。

這或許也是所有云廠商未來最核心的競爭力之一。

原創(chuàng)文章,作者:陳晨,如若轉(zhuǎn)載,請注明出處:http://2079x.cn/article/595752.html

陳晨陳晨管理團(tuán)隊(duì)

相關(guān)推薦

發(fā)表回復(fù)

登錄后才能評論