中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

機器學(xué)習(xí)+在線遷移=Azure復(fù)原能力UP

2018-12-21    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

編者按:微軟Azure團(tuán)隊一直努力為企業(yè)的云平臺使用提供更好的服務(wù)。借助于微軟亞洲研究院軟件分析組最新的磁盤故障預(yù)測和節(jié)點故障預(yù)測的兩項研究成果(論文見文末),Azure團(tuán)隊能夠更好地利用機器學(xué)習(xí)和在線遷移技術(shù)來主動地提前解決Azure可能出現(xiàn)的問題。本文編譯自微軟研究院博客文章“Improving Azure Virtual Machine resiliency with predictive ML and live migration”

微軟Azure團(tuán)隊致力于確保用戶部署在Azure上的業(yè)務(wù)得以持續(xù)可靠地運行。為了優(yōu)化Azure的可靠性,他們和微軟亞洲研究院合作,利用機器學(xué)習(xí)來預(yù)測潛在的故障,并使用在線遷移技術(shù)提前緩解故障的影響。

 

 

自2018年初以來,Azure一直采用在線遷移技術(shù)來應(yīng)對各種各樣的故障場景, 比如硬件故障、機架維護(hù)和軟件/BIOS更新等常規(guī)操作過程中出現(xiàn)的錯誤等。借助在線遷移,Azure能夠從容處理故障,并將故障的影響降低了50%。

盡管如此,想要進(jìn)一步拓展在線遷移的應(yīng)用領(lǐng)域,仍需要探究如何利用系統(tǒng)中的有效預(yù)測信號來挖掘在線遷移的用武之地;诩汗芾硐到y(tǒng)的各種監(jiān)控數(shù)據(jù),微軟研究員實現(xiàn)了基于機器學(xué)習(xí)的故障預(yù)測模型,通過與自動在線遷移技術(shù)相結(jié)合,該故障預(yù)測模型被應(yīng)用在了磁盤故障、IO延遲和CPU頻率異常等多種硬件故障情況的處理中。

微軟Azure團(tuán)隊與微軟亞洲研究院聯(lián)袂打造的高精度故障預(yù)測的機器學(xué)習(xí)模型,能夠在出現(xiàn)故障跡象之前就把正在運行的任務(wù)從“有風(fēng)險”的機器上遷移出去,這也就意味著在Azure上運行的虛擬機比底層硬件還要可靠。

利用這個模型,在線遷移對虛擬機的影響被控制到了最低。從客戶的反饋來看,虛擬機在線遷移從未引發(fā)任何問題。在線遷移的過程中,虛擬機的狀態(tài)和所有網(wǎng)絡(luò)連接能夠都保持正常。遷移的最后階段,虛擬機會暫停幾秒,繼而遷移至新的主機。只有極少量對性能敏感的任務(wù)可能會在虛擬機暫停前的幾分鐘內(nèi)受到輕微影響。

硬件故障預(yù)測

由于磁盤故障是導(dǎo)致硬件故障的主要因素,所以Azure團(tuán)隊最初主要專注于磁盤故障預(yù)測。在Azure這樣復(fù)雜的系統(tǒng)中預(yù)測磁盤故障是十分困難的,需要克服多種挑戰(zhàn)。磁盤預(yù)測模型必須考慮到下面一些因素:

• 多種多樣的系統(tǒng)狀態(tài)信號:例如客戶虛擬機性能降級、主機操作系統(tǒng)行為以及磁盤狀態(tài)的監(jiān)測信號

• 不同的客戶工作負(fù)荷:不同工作負(fù)載下的磁盤故障癥狀不同。磁盤操作密集型的任務(wù)中,磁盤故障可能在剛偵測到早期癥狀后就立即發(fā)生;而在磁盤操作強度相對較低的節(jié)點上,可能在癥狀出現(xiàn)后的幾周或幾個月內(nèi)都不發(fā)生故障。

• 不同的磁盤制造商:不同制造商的磁盤行為和故障模式不同,甚至相同廠商的不同磁盤型號之間都會有差異。

• 樣本極不均衡:通常,每10,000個節(jié)點中只有1個節(jié)點會出現(xiàn)磁盤故障跡象。經(jīng)典的機器學(xué)習(xí)方法并不能很好地應(yīng)對這種極度不均衡的情況。

為了應(yīng)對這些挑戰(zhàn),Azure團(tuán)隊設(shè)計了一種創(chuàng)新的方法,既可以全面地收集各種信號,又可以靈活地應(yīng)對故障誤報。

首先,同時運用系統(tǒng)級和磁盤層級的監(jiān)測數(shù)據(jù)。系統(tǒng)層級包括主機IO性能數(shù)據(jù)和系統(tǒng)中各類事件數(shù)據(jù),磁盤級信號則利用S.M.A.R.T(標(biāo)準(zhǔn)磁盤遙測數(shù)據(jù)標(biāo)準(zhǔn))數(shù)據(jù)。研究人員綜合利用多種特征工程方法從異構(gòu)信號中學(xué)習(xí)故障模式。

其次,將問題視為排序問題而非分類問題。在對磁盤故障概率進(jìn)行排序以后,研究人員利用優(yōu)化模型挑出N個故障可能性最高的磁盤(N的大小由最優(yōu)成本/收益權(quán)衡來確定)。

第三,設(shè)計排序方法時把信號的異質(zhì)性和相關(guān)性考慮進(jìn)去。這樣就降低了模型訓(xùn)練的復(fù)雜程度,并提高了驗證方法的可用性。

我們來看一個今年10月30日在Azure上發(fā)生的一個真實案例:

• 01:59:26,系統(tǒng)預(yù)測到磁盤存在很高的故障概率,此故障可能會影響該節(jié)點上運行的5個虛擬機。

• 02:10:38,使用在線遷移,將這5個可能被影響的虛擬機移出節(jié)點。“斷電”時間范圍在0.1秒至1.6秒之間。

• 將節(jié)點遷出,進(jìn)行詳細(xì)診斷。

• 06:20:34,該節(jié)點未能通過磁盤壓力測試,被送去維修。

這一案例中,借助磁盤故障預(yù)測技術(shù),客戶在Azure上運行的任務(wù)得以免受影響。

想要了解更多有關(guān)機器學(xué)習(xí)模型的應(yīng)用細(xì)節(jié),請參閱文末關(guān)于磁盤故障預(yù)測[1]和節(jié)點故障預(yù)測[2]的論文。

在線遷移的幕后工作

概括來說,在線遷移包含三個主要階段:遷移前準(zhǔn)備、過渡和中斷。

在遷移前準(zhǔn)備階段,在線遷移協(xié)調(diào)器負(fù)責(zé)選擇最佳目標(biāo)節(jié)點,導(dǎo)出虛擬機配置并進(jìn)行授權(quán)設(shè)置。在這個階段,虛擬機仍在源節(jié)點上保持運行,資源的可用性或性能也不會受到影響。

在過渡階段,內(nèi)存和磁盤狀態(tài)從源節(jié)點傳輸?shù)侥繕?biāo)節(jié)點;虛擬機仍在運行,但由于處理額外的工作,性能可能會有輕微下降。過渡階段的時長取決于虛擬機的大小(特別是內(nèi)存和磁盤)以及內(nèi)存的變化率。過渡時長通常在“分鐘”的量級——對于我們最常見的虛擬機規(guī)模,過渡階段時長范圍在1分鐘至30分鐘。

在線遷移的最后階段是中斷。一旦過渡階段結(jié)束,源節(jié)點和目標(biāo)節(jié)點上的虛擬機都將處于掛起狀態(tài)。在啟動目標(biāo)虛擬機之前,Azure在線遷移程序還會傳輸其它Azure特有的狀態(tài)信息。中斷階段的時間長度取決于虛擬機暫停后仍然有待傳輸?shù)臓顟B(tài)信息數(shù)量。與前文案例中的情況相同,中斷階段通常能控制在5秒以內(nèi)。

局限性

利用在線遷移技術(shù),Azure服務(wù)的可靠性已經(jīng)取得了顯著提升,但Azure團(tuán)隊始終深知還有更多工作要做,他們正逐步增加在線遷移的應(yīng)用情境,并不斷擴展它的技術(shù)能力。目前,在線遷移尚不支持以下情境:

• 硬件退役

• 專用計算(包括高性能計算[3]、GPU優(yōu)化虛擬機[4]、內(nèi)存優(yōu)化虛擬機[5]和存儲優(yōu)化虛擬機[6])

• Legacy A系列虛擬機[7]

• Cloud Services所使用的虛擬機[8]

虛擬機可用性對于客戶在Azure平臺的使用體驗至關(guān)重要,而機器學(xué)習(xí)和在線遷移技術(shù)也是Azure能否實現(xiàn)對用戶的服務(wù)承諾的關(guān)鍵所在。Azure團(tuán)隊使用在線遷移可以更透明地進(jìn)行平臺更新,并復(fù)原各種硬件和軟件故障,機器學(xué)習(xí)的應(yīng)用提升了在線遷移的有效性。在線遷移還存在一些技術(shù)上的局限性,Azure也一直在持續(xù)努力地進(jìn)行改進(jìn)。

參考文獻(xiàn)

1. Improving Service Availability of Cloud Systems by Predicting Disk Error. Yong Xu, Kaixin Sui, Randolph Yao, Hongyu Zhang, Qingwei Lin, Yingnong Dang, Peng Li, Keceng Jiang, Wenchi Zhang, Jian-Guang Lou, Murali Chintalapati, Dongmei Zhang

USENIX ATC 2018 | July 2018

https://www.microsoft.com/en-us/research/publication/improving-service-availability-cloud-systems-predicting-disk-error/

2. Predicting Node Failure in Cloud Service Systems. Qingwei Lin, Ken Hsieh, Yingnong Dang, Hongyu Zhang, Kaixin Sui, Yong Xu, Jian-Guang Lou, Chenggang Li, Youjiang Wu, Randolph Yao, Murali Chintalapati, Dongmei Zhang

ESEC/FSE 2018 | November 2018

https://www.microsoft.com/en-us/research/publication/predicting-node-failure-in-cloud-service-systems/

3. 高性能計算:

https://docs.microsoft.com/en-us/azure/virtual-machines/windows/sizes-hpc

4. GPU優(yōu)化虛擬機:

https://docs.microsoft.com/en-us/azure/virtual-machines/windows/sizes-gpu

5. 內(nèi)存優(yōu)化虛擬機:

https://docs.microsoft.com/en-us/azure/virtual-machines/windows/sizes-memory

6. 存儲優(yōu)化虛擬機:

https://docs.microsoft.com/en-us/azure/virtual-machines/windows/sizes-storage

7. Legacy A系列虛擬機:

https://docs.microsoft.com/en-us/azure/virtual-machines/windows/sizes-previous-gen

8. Cloud Services所使用的虛擬機:

https://docs.microsoft.com/en-us/azure/cloud-services/cloud-services-choose-me

標(biāo)簽: 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:機器學(xué)習(xí)在美團(tuán)配送系統(tǒng)的實踐:用技術(shù)還原真實世界

下一篇:MIT Fridman教授最新課程:一月通關(guān)自動駕駛、強化學(xué)習(xí)、以人為本的AI三大領(lǐng)域