中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

數(shù)據(jù)湖需要一次“二次手術(shù)”

2019-10-25    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Bill Schmarzo,譯者:核子可樂 來源:InfoQ

棒球運(yùn)動(dòng)當(dāng)中有著“投手之痛”這樣一個(gè)專用表達(dá),指的是投手即使身有傷病也必須進(jìn)行投球——無論是手臂酸痛、關(guān)節(jié)僵硬、水泡還是肌肉拉傷,都無法阻止比賽的正常進(jìn)行。而這些投手擁有著極其堅(jiān)毅的意志,即使身體上存在種種問題,他們有仍然能夠投出速度極快、令擊球手防不勝防的好球。

但在其他更為復(fù)雜的場(chǎng)景下,人類同樣有可能被迫完成某項(xiàng)任務(wù),而其中的難處使得參與者在有意或者無意之間利用不良習(xí)慣應(yīng)對(duì)類似的“痛苦”。如此一來,一個(gè)問題就變成了多個(gè)問題,直至整個(gè)系統(tǒng)徹底崩潰——輸?shù)舯荣、錯(cuò)過賽季。事實(shí)上,數(shù)據(jù)湖經(jīng)歷的也基本就是這樣一個(gè)過程!

“2016 年,Gartner 公司估計(jì)有 60% 的大數(shù)據(jù)項(xiàng)目遭遇失敗。”而在一年之后,Gartner 分析師 Nick Heudecker 表示原本 60% 這一比例“估計(jì)得太過保守”,并進(jìn)一步將失敗率定為近 85%。時(shí)至今日,在他看來情況也仍然沒有好轉(zhuǎn)。

不少早期的數(shù)據(jù)湖項(xiàng)目始于 CIO 決定引入 Hadoop,將大量數(shù)據(jù)加載至 Hadoop 環(huán)境當(dāng)中,聘用一些數(shù)據(jù)科學(xué)家,然后坐等奇跡的發(fā)生……坐等奇跡的發(fā)生……奇跡的發(fā)生……然后就沒有然后了。

現(xiàn)在看來,這些數(shù)據(jù)湖正在“走向失敗”——也導(dǎo)致整個(gè)數(shù)據(jù)湖領(lǐng)域步步趨向“二次手術(shù)”,其中的原因有以下兩點(diǎn):

當(dāng)原始數(shù)據(jù)湖技術(shù)無法繼續(xù)滿足目標(biāo)時(shí),IT 組織也不可能繼續(xù)前進(jìn)。

在啟動(dòng)數(shù)據(jù)湖項(xiàng)目時(shí),很多組織往往缺乏深厚的業(yè)務(wù)背景知識(shí)與可量化的業(yè)務(wù)價(jià)值。

數(shù)據(jù)湖經(jīng)濟(jì)學(xué)

經(jīng)濟(jì)學(xué)的核心,涉及價(jià)值的產(chǎn)生、消費(fèi)與轉(zhuǎn)移,其同時(shí)也是商業(yè)領(lǐng)域最強(qiáng)大的力量所在。讓我們先來看看一個(gè)最基本的經(jīng)濟(jì)概念,并考慮這個(gè)新概念如何為數(shù)據(jù)湖的“二次手術(shù)”提供操作框架。

在第一堂經(jīng)濟(jì)學(xué)課程中,我們先來介紹沉沒成本這個(gè)概念。沉沒成本是指已經(jīng)發(fā)生且無法收回的成本。我爸爸對(duì)此有個(gè)通俗的解釋,,就是“拿錢打水漂”(我爸爸曾經(jīng)建議我不要再 1968 年的〈怒 III〉街機(jī)游戲上投幣)。為了做出明智的商業(yè)決策,組織應(yīng)該只考慮即將做出的決策會(huì)帶來的成本變化,而直接忽略沉沒成本。

在技術(shù)世界當(dāng)中,這意味著即使大家購(gòu)買了特定技術(shù)并以此為基礎(chǔ)完成了培訓(xùn),在接下來的決策時(shí)同樣應(yīng)該忽略與此前購(gòu)置、實(shí)施與培訓(xùn)技術(shù)相關(guān)的成本。

在數(shù)據(jù)湖(以及數(shù)據(jù)科學(xué))的世界中,技術(shù)總是來了又去。因此,越早將這些技術(shù)投資視為沉沒成本,大家做出的商業(yè)決策就越高效。在關(guān)于現(xiàn)代數(shù)字化企業(yè)的《一次性技術(shù)時(shí)代已經(jīng)來臨( Disposable Technology: A Concept Whose Time Has Come )》一文中,我們可以提取出兩條最核心的教訓(xùn):

教訓(xùn)一:努力保持組織的一致性,從而發(fā)現(xiàn)、捕捉并運(yùn)營(yíng)企業(yè)數(shù)據(jù)當(dāng)中所隱含的客戶、產(chǎn)品及運(yùn)營(yíng)價(jià)值的新來源。

教訓(xùn)二:不要采用任何有礙教訓(xùn)一的嚴(yán)苛技術(shù)架構(gòu)。

通過積極的開源架構(gòu)策略,現(xiàn)代化數(shù)字企業(yè)逐漸意識(shí)到自己的目標(biāo)不在于建立技術(shù)架構(gòu),而是通過業(yè)務(wù)實(shí)現(xiàn)數(shù)據(jù)的貨幣化。

解決方案:在繼續(xù)制定新的數(shù)據(jù)湖決策的同時(shí),不要將大量金錢與時(shí)間耗費(fèi)在構(gòu)建原始(或者說失敗的)數(shù)據(jù)湖身上。

但是,不了解沉沒成本并不是最大的經(jīng)濟(jì)學(xué)失誤,接下來還有更嚴(yán)重的。現(xiàn)在,我要向大家介紹我個(gè)人提出的另一個(gè)經(jīng)濟(jì)學(xué)概念——吸血鬼困境理論(我正在積極為此爭(zhēng)取諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)~)。這一理論,是指組織很難徹底“放棄”過時(shí)的技術(shù),進(jìn)而導(dǎo)致“吸血鬼困境”。換言之,IT 部門無法做出要不要清退(或者說「殺死」)無用技術(shù)的決定,其中當(dāng)然也包括大家最喜愛的數(shù)據(jù)倉(cāng)庫(kù)設(shè)施啦。在這種情況下,此類技術(shù)將繼續(xù)存在,并慢慢從更重要的技術(shù)方案手中奪取財(cái)務(wù)與人力資源。

事實(shí)上,計(jì)算機(jī)協(xié)會(huì)已經(jīng)為這類無法鼓起勇氣消除不相關(guān)、過時(shí)技術(shù)的組織建立起業(yè)務(wù)模型,并將其認(rèn)定為一類典型的代表性問題。

解決方案:清退就完事了……清除數(shù)據(jù)湖中不相關(guān)的技術(shù)以及多余數(shù)據(jù),借以釋放人力與財(cái)力,從而專注于支持那些對(duì)組織業(yè)務(wù)戰(zhàn)略更具價(jià)值的技術(shù)與數(shù)據(jù)源。

創(chuàng)造新的經(jīng)濟(jì)價(jià)值來源

但是,導(dǎo)致大多數(shù)數(shù)據(jù)湖“失敗”的根本問題,在于組織無法利用其中的數(shù)據(jù)引導(dǎo)并推動(dòng)數(shù)據(jù)貨幣化工作。也就是說,人們無法借此發(fā)現(xiàn)新的客戶、產(chǎn)品與運(yùn)營(yíng)價(jià)值來源(具體請(qǐng)參見圖一)。

 

 

圖一:CIO 面臨的各項(xiàng)主要挑戰(zhàn)

如果不清楚自己希望從數(shù)據(jù)湖身上獲取怎樣的商業(yè)價(jià)值、又有哪些元素應(yīng)從數(shù)據(jù)湖中被清除出去(例如目標(biāo)用例是什么、應(yīng)根據(jù)哪些指標(biāo)來衡量工作進(jìn)展與成功程度、該用例需要哪些決策作為支撐等等),組織將無法判斷哪些數(shù)據(jù)源更為關(guān)鍵、而哪些數(shù)據(jù)源并不重要。因此,IT 組織會(huì)默認(rèn)將大量不必要的數(shù)據(jù)加載至數(shù)據(jù)湖當(dāng)中,從而產(chǎn)生大量未經(jīng)整理且無法供業(yè)務(wù)體系實(shí)際應(yīng)用的數(shù)據(jù)。

但好消息是,一旦正確指定了高優(yōu)先級(jí)數(shù)據(jù)源,IT 組織便可以利用 DataOps 將數(shù)據(jù)沼澤轉(zhuǎn)化為數(shù)據(jù)金礦。DataOps 正是其中提高數(shù)據(jù)貨幣化工作效率與效果的關(guān)鍵所在。它使我們的數(shù)據(jù)科學(xué)團(tuán)隊(duì)能夠探索各類變量與指標(biāo),借此更好地預(yù)測(cè)性能,同時(shí)不致因數(shù)據(jù)聚合、清潔、集成、協(xié)調(diào)、準(zhǔn)備、管理以及發(fā)布等流程的存在而不堪重負(fù)。關(guān)于 DataOps 以及數(shù)據(jù)科學(xué)在推動(dòng)數(shù)據(jù)貨幣化方面的共生作用,請(qǐng)參閱博文《DataOps 是什么,它對(duì)數(shù)據(jù)貨幣化價(jià)值又為何至關(guān)重要( What is DataOps and Why It’s Critical to the Data Monetization Valu…)》一文(參見圖二)。

 

 

圖二:數(shù)據(jù)貨幣化價(jià)值鏈

Hitachi Vantara 數(shù)據(jù)湖“二次手術(shù)”中的經(jīng)驗(yàn)教訓(xùn)

沒錯(cuò),Hitachi Vantara 在這場(chǎng)數(shù)據(jù)湖簡(jiǎn)史當(dāng)中也是親歷者之一——他們采購(gòu)了 Hadoop 方案,將大量數(shù)據(jù)加載到環(huán)境當(dāng)中,聘用了不少數(shù)據(jù)科學(xué)家,然后等待著奇跡的發(fā)生……但是,Hitachi Vantara 的故事與其他失敗案例之間的唯一區(qū)別,就是公司擁有一位富有遠(yuǎn)見的 CIO——Renee Lahti。在一位好友的指點(diǎn)之下,Renee 意識(shí)到她原本的數(shù)據(jù)湖方法注定會(huì)失敗。這時(shí)候,就需要進(jìn)行“二次手術(shù)”。

Renee 先后通過重新設(shè)置數(shù)據(jù)湖技術(shù)平臺(tái),以及確定有助于調(diào)整工作執(zhí)行的業(yè)務(wù)合作伙伴,開始了這場(chǎng)針對(duì)數(shù)據(jù)湖的“二次手術(shù)”(內(nèi)部代號(hào)為「香檳項(xiàng)目」,看到這是要提前慶祝勝利啊)。在這場(chǎng)以實(shí)現(xiàn)商業(yè)價(jià)值為目標(biāo)的努力中,這位重要的合作伙伴正是公司首席營(yíng)銷官 Jonathan Martin。最后,數(shù)據(jù)科學(xué)數(shù)字化價(jià)值支持(DVE)流程也由此建立起來。

我給大家透露一點(diǎn)這場(chǎng)“香檳行動(dòng)”中的故事:

組織 DVE 愿望研討會(huì),旨在發(fā)現(xiàn)、驗(yàn)證、評(píng)估并確定各個(gè)用例的優(yōu)先級(jí),同時(shí)在市場(chǎng)營(yíng)銷、財(cái)務(wù)、運(yùn)營(yíng)、銷售以及 IT 事務(wù)之間建立一致性,并利用數(shù)據(jù)湖為其中的數(shù)據(jù)科學(xué)活動(dòng)提供基礎(chǔ)。

選擇優(yōu)先級(jí)最高的用例(新產(chǎn)品引入定位),并通過我們的 DVE 價(jià)值證明方法對(duì)其進(jìn)行研究(考量一系列數(shù)據(jù)工程與數(shù)據(jù)科學(xué)工作)。

利用新產(chǎn)品引入代理,開發(fā)、測(cè)試并驗(yàn)證三套分析模型(分別對(duì)應(yīng)購(gòu)買意向、客戶忠誠(chéng)度推薦引擎以及生存模型)。

將這些評(píng)分納入銷售、產(chǎn)品與支持系統(tǒng)當(dāng)中,從而確保 Hitachi Vantara 能夠?qū)⒅С种攸c(diǎn)放在那些可以從新產(chǎn)品中獲取最佳收益的客戶群體,并思考其原因(基于客戶使用模型與服務(wù)歷史記錄)。

但根據(jù)我的個(gè)人觀察,僅使用 3 個(gè)數(shù)據(jù)源,我們就能讓實(shí)現(xiàn)高達(dá) 90% 的模型預(yù)測(cè)準(zhǔn)確性。是的,只需要 3 個(gè)即可!這項(xiàng)研究的重要意義在于,組織并不需要將數(shù)十甚至數(shù)百套數(shù)據(jù)集加載至數(shù)據(jù)湖中,以進(jìn)一步推動(dòng)數(shù)據(jù)貨幣化進(jìn)程。相反,只要組織對(duì)其希望解決的問題擁有深刻的了解,那么即使考慮到初步使用數(shù)據(jù)方面的效率與效果限制,單純面向三套最重要的數(shù)據(jù)集進(jìn)行數(shù)據(jù)清潔、完整性評(píng)估與填充操作,已經(jīng)足以帶來令人滿意的產(chǎn)出。

現(xiàn)在,我們能不能進(jìn)一步改善設(shè)計(jì),從而繼續(xù)利用這三個(gè)數(shù)據(jù)源提高模型準(zhǔn)確性?當(dāng)然可以,而這正是 IT 部門需要重點(diǎn)關(guān)注的主要數(shù)據(jù)改進(jìn)方向。

但這又帶來了另一個(gè)有趣的問題:我們能否通過合并更多數(shù)據(jù)源的方式,提高模型的準(zhǔn)確性?有可能,但在對(duì)分析模型進(jìn)行改進(jìn)的同時(shí),我們也需要考慮引入新數(shù)據(jù)源所帶來的成本與邊際價(jià)值權(quán)衡問題。換句話說,我們是應(yīng)該繼續(xù)投入資源以改善現(xiàn)有模型與數(shù)據(jù)支持能力,還是將這部分資源分配給新的用例(我們至少還有 10 個(gè)用于市場(chǎng)營(yíng)銷的其它模型)?這無疑是一項(xiàng)重要的商業(yè)決策。

總結(jié)

數(shù)據(jù)湖可以也應(yīng)該成為一套“創(chuàng)造協(xié)作價(jià)值的平臺(tái)”,負(fù)責(zé)幫助組織確定并區(qū)分那些可引導(dǎo)及推動(dòng)的全新客戶、產(chǎn)品與運(yùn)營(yíng)價(jià)值來源,并對(duì)相關(guān)用例進(jìn)行優(yōu)先級(jí)排序。但是,千萬不要長(zhǎng)期使用過時(shí)的技術(shù)平臺(tái)與貨幣方法來緩解所謂“投手之痛”。此外,接受沉沒成本以及“吸血鬼困境”等相關(guān)經(jīng)濟(jì)學(xué)概念,勇于放手前進(jìn),并將“二次手術(shù)”視為數(shù)據(jù)湖運(yùn)營(yíng)中的新常態(tài)。

只要能做到這幾點(diǎn),完成過渡并痛飲慶功酒將只是時(shí)間問題!

本文要點(diǎn)總結(jié):

正如職業(yè)運(yùn)動(dòng)員在面臨“投手之痛”時(shí),往往會(huì)利用不良習(xí)慣加以緩解,并最終嚴(yán)重影響效果與職業(yè)生涯一樣;在創(chuàng)造不良習(xí)慣以緩解系統(tǒng)架構(gòu)層面中的內(nèi)在問題時(shí),IT 組織也會(huì)遭遇相同的綜合癥甚至是后遺癥。

在數(shù)據(jù)湖的世界中,我們發(fā)現(xiàn)很多 IT 組織都試圖“熬過結(jié)構(gòu)質(zhì)量與定位質(zhì)量雙重低下的艱難發(fā)展階段”。但結(jié)果就是,這種幾乎沒救了的數(shù)據(jù)湖在“二次手術(shù)”中很可能徹底毀掉 CIO 的職業(yè)道路。

數(shù)據(jù)湖“二次手術(shù)”解決方案的起點(diǎn),應(yīng)該是了解一些基本的經(jīng)濟(jì)學(xué)概念——包括沉沒成本與“吸血鬼困境”。

實(shí)現(xiàn)數(shù)據(jù)湖項(xiàng)目成功的關(guān)鍵是什么?投入時(shí)間解決潛在的技術(shù)問題(不要以消極的態(tài)度忍受「投手之痛」),并在組織內(nèi)部就數(shù)據(jù)湖能夠在哪里以怎樣的方式引導(dǎo)并獲取新的客戶、產(chǎn)品與運(yùn)營(yíng)價(jià)值來源達(dá)成共識(shí)。

原文鏈接:

The Data Lake Chronicles: Pitching Through Pain, Vampire Indecisions and Second Surgeries

標(biāo)簽: 數(shù)據(jù)湖 大數(shù)據(jù)分析

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:大數(shù)據(jù)和人工智能如何協(xié)同工作

下一篇:大數(shù)據(jù)與機(jī)器學(xué)習(xí)預(yù)測(cè)分析(附下載)