中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

將數(shù)據(jù)遷移到云:回到未來(lái)?

2018-06-23    來(lái)源:

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

如果你深入了解了要遷移到云的數(shù)據(jù)以及用來(lái)管理數(shù)據(jù)的云原生目錄的就緒情況,你就有把握加快遷移速度。

我在最近的“賭場(chǎng)之夜”活動(dòng)中,在21點(diǎn)上押上了所有籌碼,并在最后一手牌大獲全勝。同事對(duì)我的勇氣大加贊賞,我還贏得了獎(jiǎng)勵(lì)(我們不是為了錢而賭博),他們問(wèn)我為什么冒險(xiǎn)下注,我回答說(shuō):“沒(méi)有什么危險(xiǎn)的。”

規(guī)劃云遷移的大型企業(yè)也是如此。按需容量,低成本存儲(chǔ)以及豐富的開源和商業(yè)工具生態(tài)系統(tǒng)的前景十分激動(dòng)人心。但是風(fēng)險(xiǎn)是真實(shí)存在的,特別是在數(shù)據(jù)遷移方面。數(shù)百家公司現(xiàn)在已經(jīng)證明,單一數(shù)據(jù)泄露可能會(huì)造成長(zhǎng)期的經(jīng)濟(jì),法律和品牌上的損失。除了數(shù)據(jù)保護(hù)之外,僅僅管理云中的數(shù)據(jù)是不同的,如果做法不當(dāng),成本,復(fù)雜性和風(fēng)險(xiǎn)會(huì)使一切毀于一旦。

將數(shù)據(jù)倉(cāng)庫(kù)或數(shù)據(jù)湖泊簡(jiǎn)單地“提升并轉(zhuǎn)移”到云中將不會(huì)產(chǎn)生成本節(jié)省來(lái)證明這其中付出的合理性。對(duì)總擁有成本(TCO)和規(guī)模都有顯著影響的云技術(shù)是低成本的對(duì)象存儲(chǔ)(例如Amazon S3,ADLS)和彈性數(shù)據(jù)處理(EMR,Spark)。事實(shí)上,利用這些措施來(lái)建立一個(gè)彈性的(而不是固定的)數(shù)據(jù)管理云環(huán)境,這可以將總擁有成本降低85%之多。

管理云中的數(shù)據(jù)需要多少成本?

需要注意的是,降低數(shù)據(jù)存儲(chǔ)成本的技術(shù)提供的數(shù)據(jù)管理功能要少得多。Hadoop比Teradata便宜很多,但它不提供成熟的RDBMS(Relational Database Management System,關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng))所具備的數(shù)據(jù)完整性控制、負(fù)載平衡和自動(dòng)化。同樣,S3比Hadoop數(shù)據(jù)節(jié)點(diǎn)上的存儲(chǔ)更便宜,但它只是一個(gè)文件系統(tǒng)。沒(méi)有表,字段或數(shù)據(jù)類型。如果你要在S3上查詢或處理數(shù)據(jù),你需要使用商業(yè)或開源工具(例如AWS Glue、EMR)或編寫自定義程序。為了管理和更新S3中的數(shù)據(jù),你需要一個(gè)數(shù)據(jù)管理工具(Redshift、Snowflake、Podium)。數(shù)據(jù)保護(hù)僅限于加密文件——當(dāng)你想要分析在某些字段中具有PII的數(shù)據(jù)集時(shí),數(shù)據(jù)保護(hù)功能不是很有用。盡管對(duì)象存儲(chǔ)可擴(kuò)展,價(jià)格低廉且靈活,但它使數(shù)據(jù)管理倒退了幾十年。

與很多不成熟的技術(shù)一樣,對(duì)象存儲(chǔ)的局限性也被鼓吹為功能特性。它們“允許”程序員處理任意大小,形狀或質(zhì)量的數(shù)據(jù),并解釋其結(jié)構(gòu)和內(nèi)容。這種“讀取模式(schema on read)”方法適于處理非結(jié)構(gòu)化數(shù)據(jù)或頻繁更改結(jié)構(gòu)的數(shù)據(jù)。但它妨礙了自動(dòng)化、標(biāo)準(zhǔn)化和規(guī)模化,這對(duì)于協(xié)作和重用來(lái)說(shuō)至關(guān)重要,因?yàn)閿?shù)據(jù)的含義隱藏在代碼中。這聽起來(lái)是不是很熟悉?是的。關(guān)系數(shù)據(jù)庫(kù)的口號(hào)就是要使數(shù)據(jù)的結(jié)構(gòu)和含義成為聲明式的,而不是嵌入在COBOL重定義中(你可以去查)。

根據(jù)目錄優(yōu)先策略建立的紐帶

高度結(jié)構(gòu)化的數(shù)據(jù)庫(kù)和“為所欲為”的對(duì)象存儲(chǔ)之間的紐帶是數(shù)據(jù)目錄。目錄是一個(gè)共享數(shù)據(jù)庫(kù),為對(duì)象庫(kù)中的數(shù)據(jù)提供結(jié)構(gòu)和含義。Hadoop目錄包括HIVE、Atlas和Navigator,它們定義了HDFS文件如何構(gòu)成表和字段。通過(guò)API,程序可以查詢目錄來(lái)查找邏輯數(shù)據(jù)對(duì)象的結(jié)構(gòu),其技術(shù)和業(yè)務(wù)屬性,訪問(wèn)權(quán)限以及數(shù)據(jù)文件的位置。然后這些程序可以將洞察和結(jié)果推回到目錄中以豐富它。

但是,很多云目錄都是被動(dòng)的——它們掃描文件和日志,在數(shù)據(jù)得到處理后推斷數(shù)據(jù)的結(jié)構(gòu)和使用。然而,數(shù)據(jù)管理必須是主動(dòng)的,以確保敏感數(shù)據(jù)不會(huì)暴露,重要的數(shù)據(jù)標(biāo)準(zhǔn)得到了遵守,圖謀不軌者不會(huì)實(shí)施不牢靠的計(jì)劃。所有云遷移都應(yīng)采用以目錄為中心的策略:

所有共享和敏感數(shù)據(jù)都在一個(gè)通用目錄中注冊(cè)

所有程序都將通過(guò)目錄訪問(wèn)數(shù)據(jù)并記錄其活動(dòng)

這使得公司可以提供支持各種快速發(fā)展的技術(shù)的基本數(shù)據(jù)管理。S3上的數(shù)據(jù)湖泊可以支持Hadoop處理、自定義PySpark代碼、R分析,Amazon Glue等,同時(shí)維護(hù)(并豐富)共享數(shù)據(jù)資產(chǎn)。此外,人們還可以制定一個(gè)如何存儲(chǔ),更新和檢查數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn),從而實(shí)現(xiàn)這些任務(wù)的自動(dòng)化。

目錄還支持彈性,這對(duì)云經(jīng)濟(jì)至關(guān)重要。目錄可以在一臺(tái)服務(wù)器上全天候提供使用,它支持業(yè)務(wù)用戶購(gòu)買數(shù)據(jù),開發(fā)人員設(shè)計(jì)新數(shù)據(jù)產(chǎn)品,管理員檢查質(zhì)量并添加業(yè)務(wù)定義。只有數(shù)據(jù)處理任務(wù)(如數(shù)據(jù)加載、刷新、準(zhǔn)備和分析)需要并行處理能力。關(guān)系數(shù)據(jù)庫(kù)和Hadoop習(xí)慣上將存儲(chǔ),處理和目錄結(jié)合在一個(gè)固定的系統(tǒng)中,隨著數(shù)據(jù)的增長(zhǎng),成本會(huì)全線上升。在新的世界里,目錄又是處理能力和廉價(jià)存儲(chǔ)之間的橋梁。大量的數(shù)據(jù)可以通過(guò)目錄進(jìn)行合理管理,并且可以控制處理成本。實(shí)際上,如果目錄具有分析統(tǒng)計(jì)信息(例如基數(shù)、最小值、最大值),那么它就可以優(yōu)化數(shù)據(jù)的處理。

以目錄為中心的另一個(gè)好處是可移植性。云供應(yīng)商迫切希望你注冊(cè)他們的集成的專有工具。這就是他們的策略——一旦他們的應(yīng)用程序中擁有你的數(shù)據(jù)和代碼,他們就掌握了你。目錄為你提供了選擇——我們確實(shí)在一個(gè)周末將一個(gè)客戶從一家云供應(yīng)商遷移到另一家供應(yīng)商,因?yàn)榱硪患夜⿷?yīng)商是由目錄驅(qū)動(dòng)并自動(dòng)化的。

在防火墻后面,目錄優(yōu)先策略是最好的,它使你對(duì)以目錄為中心的戰(zhàn)略做好準(zhǔn)備。自動(dòng)編目工具可以使你在幾周內(nèi)洞悉所有的數(shù)據(jù)資產(chǎn)(關(guān)系型、大型機(jī)、Hadoop、文件),并為你提供遷移劇本(playbook)。

我們應(yīng)該遷移什么資源?

GDPR和PII數(shù)據(jù)在哪里?

我們應(yīng)該將哪些重復(fù)的和相關(guān)的數(shù)據(jù)合理化?

什么是各個(gè)字段的配置文件,內(nèi)容和質(zhì)量?

人們的目標(biāo)就是通過(guò)可驗(yàn)證的審計(jì)跟蹤(audit trail)來(lái)創(chuàng)建云就緒(cloud-ready)數(shù)據(jù),以證明其來(lái)源、血緣和質(zhì)量。此外,目錄通過(guò)對(duì)廣泛用戶群體的安全,自助訪問(wèn)為敏捷性和擴(kuò)展性提供了基礎(chǔ)。如果你深入了解了要遷移到云的數(shù)據(jù)以及用來(lái)管理數(shù)據(jù)的云原生目錄的就緒情況,你就有把握加快遷移速度。

標(biāo)簽: 安全 代碼 防火墻 服務(wù)器 權(quán)限 數(shù)據(jù)庫(kù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:科技反噬論:人類蝸居“云端”,算法蠶食世界

下一篇:中國(guó)電信、華為、浪潮中標(biāo)2018中央云計(jì)算服務(wù)協(xié)議采購(gòu)項(xiàng)目