【CSDN編者按】王堅院士曾講過一句話讓人印象深刻,他說「云計算的本質(zhì)是服務(wù),假如不能將計算資源規(guī)模化、大范圍地進(jìn)行共享,假如不能真正以服務(wù)的方式提供,就根本算不上云計算。」眾所周知,阿里云是完全經(jīng)歷了從0到1,再到100的過程,將計算發(fā)揮到極致背后有一個 關(guān)鍵的服務(wù),那就是彈性計算。
阿里云彈性計算是阿里云提供的IaaS級別云計算服務(wù),它免去了客戶采購IT硬件的前期預(yù)備,讓客戶像使用水、電、天然氣等公共資源一樣便捷、高效地使用計算資源,實現(xiàn)計算資源的即開即用和彈性伸縮。在「CSDN在線峰會——阿里云核心技術(shù)競爭力」上,阿里云研究員蔣林泉(花名:雁楊)深入分享了在眾多大規(guī)模實踐下百煉成鋼的彈性計算。
復(fù)制鏈接可免費(fèi)觀看分享視頻:
s://edu.csdn.net/huiyiCourse/detail/1176
演講者|蔣林泉(雁楊),阿里云研究員
責(zé)編|唐小引
頭圖|CSDN下載自東方IC
出品|CSDN(ID:CSDNnews)
前言:彈性計算Morethanjust虛擬機(jī)
一般而言,大家理解的彈性計算,可能首先會想到是虛擬機(jī)、云服務(wù)器。
但彈性計算除了是眾所周知的IaaS的核心——云服務(wù)器ECS之外,還是一個完整的產(chǎn)品家族,而不只是虛擬機(jī)。
彈性計算不僅是阿里云的大底座,更是阿里巴巴集團(tuán)的大底座,能夠用強(qiáng)大的性能、穩(wěn)定性、彈性、效率能力來支撐云上客戶和阿里云的云產(chǎn)品。目前,中國80%的創(chuàng)新企業(yè)都在使用我們的彈性計算產(chǎn)品,更有99%的阿里云其他產(chǎn)品是在彈性計算產(chǎn)品之上為客戶提供服務(wù)。
對于彈性計算而言,我們所承擔(dān)的角色可從三個切面去看待,即制造商、零售(運(yùn)營)商和服務(wù)商:

零售商(運(yùn)營商):資源池化&彈性
我們先從零售商的角度來理解彈性計算。
對于零售商而言,需要考慮如何將彈性資源賣出去,如何讓客戶使用這種池化后的彈性資源。
零售商主要是讓用戶的服務(wù)器從購買變成租賃形態(tài),可以按照年或者月進(jìn)行付費(fèi),這樣更符合客戶的使用習(xí)慣,阿里云也提供按使用量,甚至是通過競價閑置資源的方式來進(jìn)行付費(fèi),使得客戶可以享受到在線下無法實現(xiàn)的付費(fèi)方式來節(jié)約成本。
在彈性計算的底層提升供給鏈效率,進(jìn)行服務(wù)器硬件資源虛擬化以及調(diào)度,并且保證非常高的SLA,來給客戶提供彈性能力。
?狹義彈性:時域維度的彈性
我們先來講講狹義的彈性。所謂狹義彈性就是時域維度的彈性。
如下圖中白色條線,這表示的就是時域的彈性,企業(yè)上線新特性、年中促銷或者日常促銷,甚至是業(yè)務(wù)發(fā)展變化很快,后臺的計算能力卻往往不能很快跟上。
一般傳統(tǒng)企業(yè)的解決方式其實是提前備貨,提前一年甚至三年做預(yù)算,進(jìn)行IT資源的儲備。其目標(biāo)是為了保證在未來一到兩年內(nèi),業(yè)務(wù)都不會因為容量不夠而受損,這也是導(dǎo)致大量線下傳統(tǒng)企業(yè)的日常CPU利用率無法達(dá)到5%的原因。
很糟糕的情況是,當(dāng)有新業(yè)務(wù)上線需要大規(guī)模容量的時候,IT資源無法支撐,這樣的矛盾就會使得上圖中間的虛線部分越來越大。因此,傳統(tǒng)方式要么就會造成浪費(fèi)計算資源和資金,要么就無法很好地支撐業(yè)務(wù)的快速增長。
?ECS狹義彈性能力:天下武功,唯快不破
對于狹義彈性而言,更多需要考慮如何讓其跑得更快,當(dāng)需要資源的時候以很快的速度給到客戶。
目前,阿里云云服務(wù)器ECS從開啟服務(wù)器到SSH可以登錄只需要22秒的時間,同時,單位時間內(nèi)能夠交付的計算力面積,可以做到單客戶、單Region5分鐘16萬核vCPU的交付能力。
?彈性容量自動伸縮很佳實踐
我們來看看一個彈性容量的很佳實踐案例。
首先,企業(yè)客戶需要守住自己的一個底座,也就是自己日常流量所需的計算資源,也就是下圖中綠色的線,這部分比較適合使用包年包月或者RI的模式,因為價格比較便宜。
而在底座之上的彈性部分則可以使用按量計費(fèi)或者搶占式的計算資源幫助消除峰值流量,再加上ESS的自動化,就能夠?qū)崿F(xiàn)在不同流量峰谷的時候可以自動包裹業(yè)務(wù)曲線。
?容量彈性:ESS彈性自動化4種模式
ESS彈性自動化提供了4種模式,即定時模式、動態(tài)模式、手動+動態(tài)模式和AI猜測模式:
通過多種伸縮模式的靈活組合,能夠幫助企業(yè)快速響應(yīng)計劃內(nèi)外的業(yè)務(wù)變化,實現(xiàn)按需取用,降低成本,自動智能運(yùn)維,甚至是零運(yùn)維。
?廣義彈性:基礎(chǔ)設(shè)施規(guī)模全預(yù)鋪-空間域的彈性
第二個維度與大家分享廣義彈性。云,尤其是像阿里云這么大規(guī)模的云,很大的一個特征就是基礎(chǔ)設(shè)施規(guī)模化的全鋪設(shè),也就是說具有了空間域的彈性。
任何一個物理設(shè)備,都有擴(kuò)容上限。當(dāng)擴(kuò)張到上限的時候,就會碰到擴(kuò)容墻的問題,此時就需要設(shè)備全部遷移到另外一個地域并重新啟動,無法做到跨地域調(diào)度。
云計算則能夠?qū)崿F(xiàn)跨機(jī)房、跨可用區(qū),甚至是跨Region的擴(kuò)容。阿里云擁有日不落的數(shù)據(jù)中心,業(yè)務(wù)部署到海外也是非常簡單的,這就是廣義的彈性——空間域的彈性。
?廣義彈性:空間域上覆蓋全球的大規(guī)模基礎(chǔ)設(shè)施
大家經(jīng)常會聽到阿里云部署了多少個Region以及多少個AZ(AvailabilityZone,可用區(qū)),而AZ之間是互聯(lián)的,延時也有嚴(yán)格的保障,因此用戶可以突破IDC的邊界,擴(kuò)容自己的應(yīng)用。
?廣義彈性:在ECS之上,使用豐富云服務(wù)拓展應(yīng)用的系統(tǒng)支撐能力的彈性
ECS會映射到線下的IDC服務(wù)器,因此無論是數(shù)據(jù)庫還是應(yīng)用,都是購買軟件之后進(jìn)行交付、運(yùn)維和使用。對多數(shù)云上系統(tǒng)各種Workload,都可以基于ECS用軟件自己搭建。
同時,阿里云還提供了大規(guī)模的服務(wù)化的云產(chǎn)品,一定會有一款滿足你。比如數(shù)據(jù)庫、容器、函數(shù)、中間件等都已經(jīng)實現(xiàn)了服務(wù)化,客戶不需要去安裝、運(yùn)維和治理這些軟件,而能夠利用這些軟件的彈性實現(xiàn)開箱即用,且按時付費(fèi)。而且這些軟件的數(shù)量和質(zhì)量還不斷的進(jìn)化,因此選擇上云還能夠為將來拓展應(yīng)用能力的彈性奠定基礎(chǔ)。
制造商:性能優(yōu)異,穩(wěn)如磐石
客戶的應(yīng)用都在這個云服務(wù)器上面,因此性能很重要。云廠商生產(chǎn)了各種不同規(guī)格的云服務(wù)器,通過IDC、物理機(jī)、網(wǎng)絡(luò)資源之上的這些操作系統(tǒng)將其切成資源池給到客戶。
這樣就像是工業(yè)4.0,客戶選擇了配置,如內(nèi)核、CPU、內(nèi)存、磁盤、操作系統(tǒng)等,阿里云會將這些資源調(diào)度到一臺機(jī)器上,實時生產(chǎn)出來交給用戶。
阿里云提供了封裝形態(tài)、規(guī)格族、規(guī)格大小粒度這樣廣譜覆蓋的實例矩陣來覆蓋用戶在不同場景下對于計算力的需求。
?制造商成功的本分:穩(wěn)定性&性能
中國是個制造業(yè)大國,而制造商成功的本分其實就是穩(wěn)定性和性能。阿里云具有計算、網(wǎng)絡(luò)、存儲性能的穩(wěn)定性,AZ內(nèi)、AZ間、Region間以及網(wǎng)絡(luò)性能的穩(wěn)定性。
此外,加上飛天操作系統(tǒng)在計算、存儲、網(wǎng)絡(luò)3個底層技術(shù)上的不斷投入,以及大規(guī)模調(diào)度系統(tǒng),結(jié)合底層硬件不斷進(jìn)行研發(fā)迭代,實現(xiàn)高性能和成本紅利。
?云的穩(wěn)定性
云的穩(wěn)定性主要挑戰(zhàn)在兩個方面:宕機(jī)遷移業(yè)務(wù)恢復(fù),磁盤損壞不丟數(shù)據(jù);硬件批量維修、過保,保證客戶對過保無感。
阿里云將運(yùn)維和虛擬化解耦,可以做到用戶無感的物理硬件替換,對客戶業(yè)務(wù)的連續(xù)性打攪降低到非常小的程度,這正是云上核心的穩(wěn)定性邏輯。
下圖中數(shù)據(jù)來自于各廠商官網(wǎng),阿里云ECS單實例可用性SLA可以達(dá)到99.975%,跨可用區(qū)多實例可用性SLA可達(dá)到99.995%。
標(biāo)題中的“二次去I”指的是阿里云在服務(wù)客戶的過程中發(fā)現(xiàn)客戶單實例對穩(wěn)定性要求也非常高。
在“第一次去IOE”的時候,用的是應(yīng)用層的分布式技術(shù)來解決x86的穩(wěn)定性問題。而在彈性計算領(lǐng)域,則是用基礎(chǔ)層的能力去解決x86的穩(wěn)定性問題,目標(biāo)是用x86的硬件做到和小型機(jī)一樣的穩(wěn)定性,這就是“二次去I”。客戶的技術(shù)能力各不相同,有很大一部分客戶對單機(jī)的穩(wěn)定性有非常高的依靠,無法做應(yīng)用層的容災(zāi),這樣嚴(yán)苛的需求就推動阿里云的服務(wù)要達(dá)到小型機(jī)的穩(wěn)定性,阿里云的基礎(chǔ)沉淀了多年,才得以實現(xiàn)這樣的業(yè)界領(lǐng)先的SLA。
阿里云云盤的可靠性能夠做到“9個9”,也是目前業(yè)界領(lǐng)先的,需要非常嚴(yán)謹(jǐn)和先進(jìn)的技術(shù)架構(gòu)來保障。通過分布式的基于x86的軟件定義存儲,替代掉原來商業(yè)非常昂貴的存儲,并達(dá)到了存儲的高可靠性。
阿里云是如何做到上述能力的呢?其實對于服務(wù)器而言,80%的宕機(jī),都來自IDC電力、IDC網(wǎng)絡(luò)和服務(wù)器系統(tǒng)三類原因。接下來針對于這三個原因談?wù)劙⒗镌扑龅氖虑椤?
IDC掉電的新聞中經(jīng)常出現(xiàn),屬于高頻事件。阿里云在IDC的治理上非常嚴(yán)格,擁有高可用電力架構(gòu)、網(wǎng)絡(luò)架構(gòu)以及3+N多線BGP接入,這也源于多年來的經(jīng)驗和教訓(xùn),才形成背后成熟的治理體系和技術(shù)體系。阿里云幫助客戶消除掉了IDC機(jī)房的大部分電力、網(wǎng)絡(luò)的可用性威脅。
文章地址:http://www.meyanliao.com/article/online/11286.html

- 1互聯(lián)網(wǎng)對傳統(tǒng)企業(yè)的沖擊有多大
- 2美團(tuán)再因不正當(dāng)競爭敗訴新反法互聯(lián)網(wǎng)專條首次適用外賣領(lǐng)域!
- 32021互聯(lián)網(wǎng)十件大事對不起賈躍亭你只能排第四
- 4互聯(lián)網(wǎng)宣傳做的就是用戶體驗
- 5互聯(lián)網(wǎng)創(chuàng)業(yè)到底需要怎樣的能力
- 6適合上班族的25個副業(yè)(適合上班族的互聯(lián)網(wǎng)副業(yè))
- 7互聯(lián)網(wǎng)的世界沒有永遠(yuǎn)的敵人只有永遠(yuǎn)的利益
- 8押唄進(jìn)駐天線貓助力互聯(lián)網(wǎng)數(shù)碼產(chǎn)品寄存行業(yè)經(jīng)濟(jì)持續(xù)發(fā)展
- 9互聯(lián)網(wǎng)公司如何做好品牌定位
- 102021年互聯(lián)網(wǎng)金融發(fā)展回顧冬去春欲來改弦當(dāng)更張