中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

初探:企業(yè)數(shù)據湖治理最佳實踐!

2018-10-02    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

通常,那些剛接觸大數(shù)據的人,甚至是精通Hadoop的老手,都會嘗試使用不同的腳本、工具和第三方供應商來組建幾個集群并拼湊在一起,這既不符合成本效益,也不可持續(xù)。本文,作者將描述數(shù)據湖與集群拼湊方式相比的優(yōu)勢是什么,集群如何規(guī)劃和治理才能構建有效的數(shù)據湖。

數(shù)據湖正在成為一種越來越可行的解決方案,用于企業(yè)從大數(shù)據中提取價值,并代表早期大數(shù)據采用者合乎邏輯的下一步。這一概念是2011年提出來的,最初的數(shù)據湖是對數(shù)據倉庫的一個補充,主要是為了解決數(shù)據倉庫開發(fā)周期漫長,開發(fā)和維護成本較高,細節(jié)數(shù)據丟失等問題。數(shù)據湖大多相對于傳統(tǒng)的基于RDBMS的數(shù)據倉庫,在隔離的邏輯區(qū)域中提供結構化、非結構化和歷史數(shù)據的靈活性,這已經和安全性一起為企業(yè)帶來了一系列轉型的可能。

然而,許多潛在用戶無法理解可用數(shù)據湖的定義。通常,那些剛接觸大數(shù)據的人,甚至是精通Hadoop的老手,都會嘗試使用不同的腳本、工具和第三方供應商來組建幾個集群并拼湊在一起,這既不符合成本效益,也不可持續(xù)。本文,作者將描述數(shù)據湖與集群拼湊方式相比的優(yōu)勢是什么,集群如何規(guī)劃和治理才能構建有效的數(shù)據湖。

區(qū)域

在數(shù)據湖中,區(qū)域允許數(shù)據的邏輯或物理分離,從而保護整體環(huán)境的安全性、有序性和敏捷性。通常,建議企業(yè)使用3或4個區(qū)域,但可以使用更少或更多區(qū)域。通用的4區(qū)系統(tǒng)可能包括以下內容:

Transient Zone(瞬態(tài)區(qū)域)——用于在獲取之前短暫保存數(shù)據,例如臨時副本,流式spool或其他短期數(shù)據。

Raw Zone(原始區(qū)域)——存放原始數(shù)據的區(qū)域,該區(qū)域敏感數(shù)據必須加密,標記化或以其他方式保護。

Trusted Zone(受信任區(qū)域)——對原始區(qū)域中的數(shù)據執(zhí)行數(shù)據質量、驗證或其他處理后,它將成為此區(qū)域中下游系統(tǒng)的“真實數(shù)據來源”,也就是說其下游系統(tǒng)會從該區(qū)域獲取數(shù)據。

Refined Zone(再處理區(qū))——操作和豐富的數(shù)據保存在此區(qū)域,這用于存儲來自Hive或外部工具等的輸出,這些工具將寫入數(shù)據湖中。

這種區(qū)域劃分可以根據需要適應企業(yè)的業(yè)務規(guī)模、成熟度和特殊用例,但將通過專用服務器或者集群實現(xiàn)物理隔離,通過故意構建目錄和訪問權限進行邏輯分離,或者兩者進行特別組合。在視覺上,這種架構類似于下面的架構。

 

 

建立和維護定義明確的區(qū)域是創(chuàng)建健康湖泊的重要步驟。同時,了解哪些區(qū)域不提供災難恢復或數(shù)據冗余策略也是非常重要的。盡管可以在DR中考慮該問題,但仍然需要投資可靠的底層基礎架構以確保冗余和恢復能力。

Lineage

隨著新數(shù)據源的不斷添加以及現(xiàn)有數(shù)據源的更新或修改,維護數(shù)據集內部關系之間的記錄變得更加重要。這些關系就像重命名列一樣簡單,也可能像連接不同源的多個表一樣復雜,每個表本身可能有多個上游轉換。在此上下文中,lineage有助于提供跟蹤性以了解字段或數(shù)據集的來源以及審計跟蹤,并了解更改的位置、時間和原因。聽起來簡單,但是當數(shù)據在湖中移動時捕獲有關數(shù)據的細節(jié)非常困難,即使今天部署了一些專門的軟件。跟蹤的整個過程涉及事務級別(訪問數(shù)據和做了什么?)以及結構或文件系統(tǒng)級別(數(shù)據集和字段之間的關系是什么?)等問題。數(shù)據湖中包括數(shù)據的批和流處理工具(例如MapReduce和Spark),以及可能操縱數(shù)據的任何外部系統(tǒng),例如RDBMS系統(tǒng)。lineage可填補傳統(tǒng)系統(tǒng)的部分空白,特別是隨著GDPR等新法規(guī)的出現(xiàn)——靈活性和可擴展性是未來管理的關鍵。

數(shù)據質量

在數(shù)據湖中,并非所有數(shù)據都相同。因此,定義數(shù)據源以及管理和使用數(shù)據至關重要。通過清理來自各種物聯(lián)網設備或社交媒體的數(shù)據,可以獲得很多價值。企業(yè)還可以考慮在消費方而不是采購方應用數(shù)據質量檢查。因為,單個數(shù)據質量體系結構可能不適用于所有類型的數(shù)據。必須注意的是,如果數(shù)據被“清理”,用于分析的結果可能會產生影響。修復數(shù)據集中值的字段級數(shù)據質量規(guī)則可以影響預測模型結果,因為這些修復可以影響異常值。通過比較“數(shù)據集的預期與接收大小”或“空值閾值”來衡量數(shù)據質量規(guī)則是否可用可能更適合此類情況。通常,所需驗證的級別受傳統(tǒng)限制或已經存在的內部流程影響,在設置新規(guī)則之前評估公司的現(xiàn)有流程是必須的。

隱私與安全

健康數(shù)據湖的關鍵組成部分是隱私和安全性,包括基于角色的訪問控制、身份驗證、授權以及靜態(tài)和動態(tài)數(shù)據加密等。從純數(shù)據湖和數(shù)據管理的角度來看,最重要的往往是數(shù)據混淆,包括標記化和數(shù)據屏蔽。應該使用這兩個概念來幫助數(shù)據遵守最小特權的安全概念。限制數(shù)據訪問也對許多希望遵守法規(guī)的企業(yè)具有意義。限制訪問有幾種形式,最明顯的是存儲層中區(qū)域的大量使用。簡而言之,可以配置存儲層中的權限,使得以最原始格式訪問數(shù)據非常有限。由于該數(shù)據隨后通過標記化和掩蔽(即隱藏PII數(shù)據)進行轉換,因此可以將對后續(xù)區(qū)域中的數(shù)據訪問擴展到更大的用戶組。

DLM

企業(yè)必須努力發(fā)展其數(shù)據管理戰(zhàn)略,以更有效地保護和服務其數(shù)字資產。這涉及投入時間和資源來完全創(chuàng)建生命周期管理策略,并確定是使用扁平結構還是利用分層保護。數(shù)據生命周期管理的前提是基于數(shù)據創(chuàng)建、使用和存檔這一事實。如今,這個前提可能適用于某些交易數(shù)據。企業(yè)應該了解信息、數(shù)據和存儲介質的相同點和差異,并能夠最大限度地利用不同存儲層消除復雜性和成本并釋放價值。

結論

就像處于初期階段的關系數(shù)據庫一樣,近年來Hadoop的應用因缺乏最佳實踐而受到影響。企業(yè)在考慮將Hadoop用作數(shù)據湖時,需要參考盡可能多的最佳實踐。利用區(qū)域和適當?shù)氖跈嘧鳛閿?shù)據工作流框架的一部分,為數(shù)據轉換提供高度可擴展的并行系統(tǒng)。

標簽: 安全 大數(shù)據 服務器 腳本 媒體 權限 數(shù)據庫 轉型

版權申明:本站文章部分自網絡,如有侵權,請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:數(shù)據科學與大數(shù)據技術面試建議與技巧之危險信號

下一篇:國慶旅游,看看大數(shù)據再出發(fā)