2018杭州·云棲大會(huì)上,阿里云上演了一出好戲——直播“破壞”數(shù)據(jù)中心。
12600種異常被現(xiàn)場(chǎng)觀眾隨機(jī)挑選,在專有云數(shù)據(jù)中心里橫沖直撞,進(jìn)行“破壞”:模擬硬盤掉電、網(wǎng)絡(luò)抖動(dòng)、服務(wù)器宕機(jī)等,但系統(tǒng)和應(yīng)用依然穩(wěn)定運(yùn)行。
自去年云棲大會(huì)上現(xiàn)場(chǎng)演示拔服務(wù)器電源后,馬勁就有了個(gè)“破壞之王”的名號(hào)。
“破壞”是為了讓系統(tǒng)更穩(wěn)定,過(guò)去一年,他和工程師們開(kāi)啟了一項(xiàng)“混沌工程”計(jì)劃,構(gòu)造超過(guò)12600種生產(chǎn)環(huán)境下可能出的異常組合,每一種都能對(duì)系統(tǒng)造成一定程度的破壞,諸如服務(wù)器宕機(jī)、計(jì)算資源耗盡、程序異常退出、誤刪除及網(wǎng)絡(luò)抖動(dòng)、IO hang等復(fù)雜問(wèn)題,通過(guò)對(duì)這類問(wèn)題構(gòu)建“專有云免疫系統(tǒng)”,幫助客戶提前排除80%的故障隱患。

或許是現(xiàn)場(chǎng)觀眾隨機(jī)挑選的異?!捌茐牧Α辈蛔?,馬勁一狠心,演示了一個(gè)極端環(huán)境下的超級(jí)異常——核心ECS集群出現(xiàn)局部網(wǎng)絡(luò)異常,同時(shí)另一臺(tái)ECS計(jì)算資源飽和。
演示現(xiàn)場(chǎng)的專有云快速隔離及彈性伸縮服務(wù)發(fā)揮了作用,應(yīng)用僅持續(xù)了幾秒的抖動(dòng)便恢復(fù)了正常。
馬勁表示,阿里云的“混沌工程”是在仿真的生產(chǎn)環(huán)境中進(jìn)行可控的建設(shè)性破壞,對(duì)不符合預(yù)期的系統(tǒng)反饋不斷優(yōu)化,從而持續(xù)打磨,為客戶提供穩(wěn)定環(huán)境。

據(jù)了解,自2016年發(fā)布專有云解決方案以來(lái),阿里云已助力數(shù)百家政府、金融、企業(yè)客戶完成了數(shù)字化轉(zhuǎn)型,包括海關(guān)總署、浙江政務(wù)服務(wù)網(wǎng)、中國(guó)聯(lián)通、中信等大型政企客戶,專有云提供超過(guò)60款云產(chǎn)品和服務(wù),支持10-10000臺(tái)單集群規(guī)模部署,可將計(jì)算延伸到更多邊緣場(chǎng)景。
據(jù)悉,今天的專有云正在開(kāi)拓海外市場(chǎng),并與英特爾成立產(chǎn)業(yè)聯(lián)盟服務(wù)全球客戶。

