中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

云計算環(huán)境下架構(gòu)Hadoop集群的數(shù)據(jù)分配方式

2019-03-08    來源:多智時代

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

云計算(Cloud Computing)是一種新興的商業(yè)計算模型。它將計算任務(wù)分布在大量計算機構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計算力、存儲空間和各種軟件服務(wù)。云計算是網(wǎng)格計算(Grid Computing)、分布式計算(Distributed Computing)、并行計算(ParallelComputing)、效用計算(Utility Computing)、網(wǎng)絡(luò)存儲(Network Storage Technologies)、虛擬化(Virtualization),負(fù)載均衡(Load Balance)等傳統(tǒng)計算機技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物。

它的數(shù)據(jù)存儲是采用分布式存儲方式實現(xiàn)的,這就可以保證高可靠性、高可用性和經(jīng)濟性,數(shù)據(jù)存儲的高可靠性是采用冗余存儲的方式來保證的,用可靠的軟件來彌補硬件的不足,從而提供廉價可靠的海量分布式存儲服務(wù)和計算服務(wù)。另外,數(shù)據(jù)存儲技術(shù)必須具有高吞吐率和高傳輸率的特點。這樣云計算系統(tǒng)就可同時滿足大量用戶的需求,才能為大量用戶并行地提供服務(wù)。云計算的數(shù)據(jù)存儲系統(tǒng)最著名的是谷歌研發(fā)的非開源系統(tǒng)GFS(Google File System)和Hadoop開發(fā)團隊開發(fā)的開源系統(tǒng)HDFS(Hadoop Distributed FileSystem)。

并行計算技術(shù)是云計算的核心技術(shù),也是最具戰(zhàn)性的技術(shù)之一。MapReduce是Google公司的核心計算模型,名字源于函數(shù)式編程模型中的兩項核心操作:Map和Reduce操作。Map操作獨立地對每個元素進(jìn)行操作,且操作沒有副作用;Reduce操作對N個Map結(jié)果進(jìn)行歸約,也就是Map[1,2.。.,N]的結(jié)果是Reduce操作的參數(shù)。在一個指令式語言中求值順序是確定的,每個函數(shù)都有可能會變更或依賴于外部狀態(tài),所以必須有序地執(zhí)行這些函數(shù)。在MapReduce編程模型中,只要沒有函數(shù)修改或依賴千全局變量,N個Map操作的執(zhí)行順序可以是無序的,這種特性使得MapReduce模型適合于對大規(guī)模數(shù)據(jù)進(jìn)行并行處理。

在MapReduce計算模型中,有兩個關(guān)鍵過程:映射過程Map和聚集過程Reduce。因此需要用戶提供兩個關(guān)鍵函數(shù),映射(Map)函數(shù)和聚集(Reduce)函數(shù),這兩個函數(shù)對一組輸人的鍵值對(key/value)進(jìn)行計算,得出另一組輸出鍵值對,即有:

Map:(in_key, in_value)-{(keyj, valuej)j=l.。.k}

Reduce :(key,[valuel,。..,valuem])一(key, fina_value)

在不同的應(yīng)用中,Map和Reduce的輸人參數(shù)和輸出結(jié)果是不相同的。Map的輸入?yún)?shù)in_key和in_value,給S了Map函數(shù)要處理的是哪些數(shù)據(jù)。每個Map函數(shù)計算完與后輸出結(jié)果一組鍵/值對,它們是經(jīng)過Mad任務(wù)執(zhí)行完成后所返回的中間結(jié)果。系統(tǒng)在執(zhí)行Reduce任務(wù)之前,先檢查前面Map任務(wù)返回的中間結(jié)果,根據(jù)Key進(jìn)行分類處理,把相同key值所對應(yīng)的value合并在一起把它們送給同一個Reduce任務(wù)進(jìn)行處理,從而可以看出Reduce的輸入?yún)?shù)是(key,[ valuel,…,valuem])。Reduc任務(wù)主要對這些有著相同key值所對應(yīng)的value值進(jìn)行歸字處理,在Reduce任務(wù)執(zhí)行完成后輸出(key, finaLvalue)的f果。一個key值對應(yīng)了一個Reduce任務(wù),把所有Reduce千務(wù)執(zhí)行的結(jié)果合并連接在一起就形成了最終的輸出結(jié)果。

典型的MapReduce計算過程如圖1

云計算環(huán)境下架構(gòu)Hadoop集群的數(shù)據(jù)分配方式

圖1 MapReduce的工作流

(4)MapReduce庫把所有具有相同中間key值I的中間value值集合在一起后傳遞給reduce函數(shù);

(5)用戶自定義的Reduce函數(shù)接受一個中間key的值I和相關(guān)的一個value值的集合。Reduce函數(shù)將這些value值合并成一個較小的value值的集合。正常的,每次Reduce函數(shù)調(diào)用只產(chǎn)生0或I個輸出value值。可以通過一個迭代器把中間value值提供給Reduce函數(shù),這樣就可以處理無法全部放入內(nèi)存中的大量的value值的集合。

Hadoop是Apache軟件基金會(Apache SoftwareFoundation)組織下的一個開源項目,提供分布式計算環(huán)境下的可靠、可擴展軟件。Hadoop平臺擁有自己的分布式文件系統(tǒng)(HDFS),具體實現(xiàn)采用MapReduce模式。Hadoop采取文件備份的方式,為每份數(shù)據(jù)制作若干拷貝,擁有較高的安全可靠性。作為一個開源的分布式系統(tǒng)平臺,Hadoop除了擁有開源所帶來的更新速度快、應(yīng)用廣泛等優(yōu)勢外,還具有以下一些其它分布式云計算框架所共有的優(yōu)點:高度的可擴展性、經(jīng)濟實用性、高速有效性、高可靠性。

HDFS采用Master/Slave架構(gòu),一個HDFS集群由一個命名節(jié)點((NameNode)和一組數(shù)據(jù)節(jié)點(DataNode)組成。命名節(jié)點是一個中心服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的名字空間(NameSpace)以及客戶端對文件的訪問。在集群系統(tǒng)中,一般在一個節(jié)點上運行一個數(shù)據(jù)節(jié)點,負(fù)責(zé)管理它所在節(jié)點上的數(shù)據(jù)存儲,并負(fù)責(zé)處理文件系統(tǒng)客戶端的讀寫請求,在命名節(jié)點的統(tǒng)一調(diào)度下進(jìn)行數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。Hadoop還實現(xiàn)了Google的MapReduce分布式計算模型,MapReduce把應(yīng)用程序的總?cè)蝿?wù)分割成許多子任務(wù),每個子任務(wù)可以在任何集群節(jié)點(數(shù)據(jù)節(jié)點,通常也作為計算節(jié)點)上并行處理。HDFS創(chuàng)建了多份數(shù)據(jù)塊(Data Blocks)的副本(Replicas),以保證各個子任務(wù)節(jié)點計算的可靠性((Reliability)。由于采用了分布式文件系統(tǒng)和MapRedace模型,因此Hadoop框架具有高容錯性及對數(shù)據(jù)讀寫的高吞吐率,能自動處理失敗節(jié)點。圖2是Hadoop集群系統(tǒng)架構(gòu)的示意圖。

由圖2可知,HDFS是由一個命名節(jié)點和多個數(shù)據(jù)節(jié)點組成的。數(shù)據(jù)節(jié)點存儲著文件系統(tǒng)的元數(shù)據(jù),它的作用就像是文件系統(tǒng)的總指揮,維護(hù)文件系統(tǒng)命名空間、規(guī)范客戶對于文件的存取和提供對于文件目錄的操作,數(shù)據(jù)節(jié)點中存儲著實際的數(shù)據(jù),負(fù)責(zé)管理存儲節(jié)點上的存儲空間和來自客戶的讀寫請求。數(shù)據(jù)節(jié)點也執(zhí)行塊創(chuàng)建、刪除和來自命名節(jié)點的復(fù)制命令。

標(biāo)簽: [db:TAGG]

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:微軟云計算Azure云服務(wù)入庫數(shù)據(jù)7月將免費

下一篇:調(diào)查顯示:過半企業(yè)對云計算感興趣