中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

典型技術(shù)架構(gòu)的分析和構(gòu)建——《企業(yè)大數(shù)據(jù)實(shí)踐路線》

2019-02-26    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

今天我們主要來說一下典型技術(shù)架構(gòu)的分析和構(gòu)建。這是我們實(shí)操的第一步。

典型技術(shù)架構(gòu)的分析和構(gòu)建

可能聽了我的分享或者別人的分享,大家都會(huì)躍躍欲試。我們需要從哪一個(gè)方面去入手去改造大數(shù)據(jù)業(yè)務(wù)呢?我整理了一下,一個(gè)大數(shù)據(jù)應(yīng)用的一個(gè)完整流程,其實(shí)是分4個(gè)步驟,在我這兒看是4個(gè)步驟。但其中可以說是4個(gè)也可以說是3個(gè),因?yàn)橛幸粋(gè)可以省略的,如果你的數(shù)據(jù)體量不大的情況下。

 

 

第一個(gè)流程是數(shù)據(jù)的匯總。

數(shù)據(jù)的匯總其實(shí)是通過各種各樣的方式把數(shù)據(jù)源的數(shù)據(jù)做一個(gè)整合或者哪一個(gè)平臺(tái)里面。把所有的數(shù)據(jù)能夠打通都打通,能把數(shù)據(jù)整合到一個(gè)池子里面的都整合到一個(gè)池子里面,至于這個(gè)打通的渠道和通道是什么,以及這個(gè)池子是什么,我后一步會(huì)去說,但是你要第一步去思考這個(gè)問題,你手上有什么數(shù)據(jù)你先搞搞清楚。這是大數(shù)據(jù)的第一步,數(shù)據(jù)匯總。你得匯總什么,你得要一個(gè)明確的概念。

第二步,數(shù)據(jù)清洗。數(shù)據(jù)匯總完了以后,我們要對(duì)數(shù)據(jù)進(jìn)行一個(gè)清洗,就是這一步是我剛剛說的可以省略的一步,因?yàn)橛幸恍┩瑢W(xué)他的業(yè)務(wù)比較單純或者相對(duì)來說數(shù)據(jù)比較標(biāo)準(zhǔn)化,沒有太多的一些需要清洗的東西,他能直接應(yīng)用在大數(shù)據(jù)應(yīng)用和開發(fā)里面,這個(gè)看你的業(yè)務(wù)需要,清洗不是一個(gè)必須的過程,可做可不做。

正常來說,大部分的數(shù)據(jù)都要去做一次或者多次的清洗。那么對(duì)匯總數(shù)據(jù)進(jìn)行清洗主要是篩掉一些沒有用的信息,然后將數(shù)據(jù)轉(zhuǎn)化成可讀性高一點(diǎn)的、關(guān)聯(lián)完整度高一點(diǎn)的數(shù)據(jù)。因?yàn)槲覀兒芏嗪芏鄶?shù)據(jù)來源于不同的系統(tǒng),來源于不同的業(yè)務(wù),甚至來源于不同的數(shù)據(jù)庫。這種情況下你的數(shù)據(jù)過來之后會(huì)導(dǎo)致一個(gè)問題,因?yàn)槟惚旧硎菑母鱾(gè)數(shù)據(jù)孤島過來的,那你原先可能是通過各種各樣的ID去關(guān)聯(lián)或者是通過各種各樣的消息ID或者是任務(wù)ID去關(guān)聯(lián),其實(shí)這種關(guān)聯(lián)是挺碎的,需要在一個(gè)合理的范圍內(nèi)去把這些數(shù)據(jù)去打平。我們上一期內(nèi)容也著重說了一個(gè)打平的內(nèi)容,我覺得打平是數(shù)據(jù)清洗一個(gè)比較核心的點(diǎn),就是多表打平,就是做一個(gè)寬表的概念是比較重要的,甚至它占到數(shù)據(jù)清晰50%以上重要度,這是我個(gè)人的理解。因?yàn)槟阒挥邪阉蚱街,它的可利用率才高,而不是說東一塊西一塊的,這個(gè)數(shù)據(jù)放在各個(gè)不同的區(qū)塊里面或者是還要通過各種關(guān)聯(lián)問題才可以查到,這種對(duì)我們后續(xù)去運(yùn)用這個(gè)大數(shù)據(jù)的時(shí)候,會(huì)帶來很多很多的不方便,效率會(huì)很低,對(duì)開發(fā)人員的要求會(huì)變的很高。

第三步,數(shù)據(jù)計(jì)算。

完成數(shù)據(jù)清洗之后,我們可以通過各種各樣的方式去計(jì)算,去做一個(gè)數(shù)據(jù)的深加工。做深加工的目的是什么呢?為了把數(shù)據(jù)的價(jià)值更好的體現(xiàn)出來,你要去打一個(gè)比較好的基礎(chǔ),我覺得數(shù)據(jù)計(jì)算這一步是整個(gè)大數(shù)據(jù)算是一個(gè)靈魂。因?yàn)槟闱逑赐甑臄?shù)據(jù)其實(shí)也不具備什么的價(jià)值,你無非是把各個(gè)系統(tǒng)的數(shù)據(jù)打通,然后清洗到幾張寬表里面,那么最終這些寬表數(shù)據(jù)意味著什么呢?產(chǎn)生什么呢?能挖掘出什么呢?有這些東西都是由數(shù)據(jù)計(jì)算去決定的,所以數(shù)據(jù)計(jì)算是整個(gè)大數(shù)據(jù)應(yīng)用核心一個(gè)靈魂。

第四步數(shù)據(jù)應(yīng)用。

我們?cè)跀?shù)據(jù)加工完成之后,為一項(xiàng)或者多項(xiàng)加工成果披上外衣,把它變成一個(gè)可以讓用戶使用或者是可以被用戶感知到的一個(gè)具體應(yīng)用或者是功能模塊。這是我覺得大數(shù)據(jù)應(yīng)用你前面三個(gè)流程做完以后,最后一個(gè)產(chǎn)出物,就相當(dāng)于我們從樹上摘一個(gè)果子,然后把這個(gè)果子洗干凈,洗干凈之后我們通過一系列的加工手段,把它加工成一個(gè)糖水罐頭,然后我們最終把這個(gè)糖水罐頭送到用戶面前讓他去吃,他覺得這個(gè)東西好吃,這個(gè)就達(dá)到效果了。

這是我覺得這個(gè)大數(shù)據(jù)應(yīng)用是這樣一個(gè)流程,4步。打個(gè)比方,有的果子可能是在無菌環(huán)境下生長(zhǎng)的,所以它很干凈不需要清洗,那可能就省掉了第二步,那就直接從樹上采下來之后放在加工中心,加工完去生產(chǎn)出一個(gè)罐頭給到用戶去吃,那這個(gè)可能會(huì)把數(shù)據(jù)清洗這一環(huán)省掉。但是我覺得大部分,絕大部分的公司可能數(shù)據(jù)清洗這一步都是需要去做的。所以大家不需要太糾結(jié)這個(gè)過程,但是理論上來說都是這4步都要走的,而且應(yīng)該是按順序去走的。

數(shù)據(jù)匯總-清洗-計(jì)算-應(yīng)用四步如何走?

 

 

我們先說一下數(shù)據(jù)匯總,數(shù)據(jù)匯總我們前面說過我們的數(shù)據(jù)來源有幾塊,一個(gè)是服務(wù)器的日志或者是我們的監(jiān)控?cái)?shù)據(jù)或者是我們業(yè)務(wù)數(shù)據(jù),乃至更多數(shù)據(jù)渠道。這個(gè)可以大家發(fā)揮自己的想象力,把它串聯(lián)起來。

為什么要這樣去做呢?大家看我們?cè)谶@個(gè)圓形的圖式中,寫了哪些字:Kafka Rabbit MQ Redis,都是一些像消息隊(duì)列一樣的一些工具或者是平臺(tái)。那么原因是什么呢?因?yàn)槲覀円懒砍鰯?shù)據(jù)的規(guī)模,我們不能直接把數(shù)據(jù),未清洗的數(shù)據(jù)直接統(tǒng)一導(dǎo)到某一個(gè)數(shù)據(jù)池也好,數(shù)據(jù)庫也好。不能直接去導(dǎo)原因是什么?很簡(jiǎn)單的一個(gè)道理。就是我們?nèi)魏我粋(gè)數(shù)據(jù)庫或者是數(shù)據(jù)池都是有性能上限的,特別是它應(yīng)用在業(yè)務(wù)中的時(shí)候,可能正在被查詢,可能正在進(jìn)行生產(chǎn)或者是正在進(jìn)行模型訓(xùn)練等等這樣一些事情。那么這個(gè)過程中,如果你有突發(fā)的數(shù)據(jù)過來,因?yàn)閷?duì)數(shù)據(jù)的吞吐量你是沒有辦法去預(yù)測(cè)的,所以有突發(fā)的數(shù)據(jù)過來可能會(huì)影響到你正在生產(chǎn)或者是正在操作的數(shù)據(jù)庫的穩(wěn)定性。所以我們?cè)谥虚g放了一套緩沖機(jī)制,把所有的信息投遞到我們消息隊(duì)列,然后再由消費(fèi)消息隊(duì)列的方式去把數(shù)據(jù)讀出來,然后存到我們?cè)紨?shù)據(jù)池中去。我這兒寫的原始數(shù)據(jù)池寫的是ES。

但是具體你的業(yè)務(wù)使用環(huán)境或者是過程中是不是使用ES,你自己去考量,并不一定是絕對(duì),只是我用順手了,所以我更喜歡用ES,因?yàn)樗容^方便。這是匯聚方式。其實(shí)主要還是為了這種匯聚方式,這個(gè)架構(gòu)主要目的為了提高我們數(shù)據(jù)池的一個(gè)穩(wěn)定性。然后削平峰谷這是一個(gè)比較好的彈性方案,不會(huì)因?yàn)橥话l(fā)寫入IO性能瓶頸影響到整個(gè)ES的業(yè)務(wù)使用,影響到這個(gè)數(shù)據(jù)庫的使用。而且我們現(xiàn)在大部分隊(duì)列服務(wù)都是分布式的,也可以去水平擴(kuò)容,做儲(chǔ)存等等,就各種各樣的方式就相對(duì)來說它的抗壓能力會(huì)比一個(gè)常規(guī)的數(shù)據(jù)庫要強(qiáng)一些。

那么從經(jīng)驗(yàn)上來說,像大數(shù)據(jù)量級(jí)吞吐,我們可以用Kafka作為前端一個(gè)緩沖隊(duì)列,中小量級(jí)可能用Rabbit MQ,或者是Redis或者是阿里云的MAS或者是MQ等等,就是這樣一些服務(wù)去作為一個(gè)中間層去緩沖一下,去做常規(guī)的隊(duì)列就可以了。

那至于說我從這一步導(dǎo)向這一步的過程我就不贅述了,其實(shí)方案挺多的,但是你可能要根據(jù)實(shí)際的情況去選擇,比較常見的有l(wèi)ogstash或者是我們自己寫一個(gè)程序去消費(fèi)隊(duì)列,去消費(fèi)kafka,消費(fèi)redis或者是MAS,消費(fèi)之后把它存到我們的ES里面去,這樣一種方式。因?yàn)檫@個(gè)過程可以選擇的工具鏈以及方案很多,而且差異性很強(qiáng),所以我沒有辦法去給大家畫一張這個(gè)區(qū)域的圖,這個(gè)區(qū)域的圖相對(duì)來說比較簡(jiǎn)單,就消費(fèi)存入就行了,就各家有各家的方案去處理,但是萬變不離其宗,不是一個(gè)高難度的操作。這是我們的一個(gè)匯聚方式。

 

 

說完匯聚方式之后,我們說一下就是數(shù)據(jù)清洗,數(shù)據(jù)清洗就是我們剛剛說我們拿到了一個(gè)原始大數(shù)據(jù)池,比如說ES,我們需要對(duì)它進(jìn)行清洗。

清洗主要做幾件事情。一個(gè)是清洗掉沒有用的字段或者是過濾不符合預(yù)期的數(shù)據(jù),直接表現(xiàn)為我們有一些日志中的數(shù)據(jù),它可能跟我們業(yè)務(wù)沒有什么太大的關(guān)系,只是純粹是一些CPU的數(shù)據(jù)或者是內(nèi)容的占用率或者是磁盤占用率,可能這些數(shù)據(jù)大部分公司是不需要,大部分公司只需要把這些屬于給到監(jiān)控室就可以了,不需要把它攙和到我們大數(shù)據(jù)計(jì)算這個(gè)過程中。所以在這個(gè)環(huán)節(jié)我們可以把這部分的數(shù)據(jù)清洗掉,過濾掉,只留下我們想要的一些數(shù)據(jù)。

第二個(gè)就是統(tǒng)一字段類型和格式。這個(gè)階段主要做的內(nèi)容是哪些,我下面舉了個(gè)小例子,比如說我們java的時(shí)間戳是13位,PHP的時(shí)間戳為10位,這種情況下,要么你把13位最后面3位抹掉,降低它的精度,要么你是把PHP的時(shí)間戳后面再補(bǔ)三個(gè)0提高它的精度,讓它變成13位的。一定要做成統(tǒng)一格式,做成標(biāo)準(zhǔn)化的,要么你全系統(tǒng)都是13位,要么都是10位。如果你不補(bǔ)0補(bǔ)到13位或者降低精度變成10位,它在后續(xù)使用過程中會(huì)出現(xiàn)很多奇奇怪怪的問題,因?yàn)槟愕臄?shù)據(jù)預(yù)期不一樣,所以表示年月日或者是換算年月日的時(shí)候最后算出來的數(shù)據(jù)是不一樣的,可能對(duì)你的業(yè)務(wù)來說會(huì)多很多的邏輯錯(cuò)誤。這個(gè)例子可能最好理解的例子了,就是時(shí)間戳補(bǔ)0或者是降低精度的問題,主要是為了統(tǒng)一我們的字段類型和格式。

有的系統(tǒng)里面我的字段類型可能是數(shù)據(jù)性或者是字符串類型的。我們需要在我們的清洗過程中,把它統(tǒng)一的轉(zhuǎn)化成一樣的格式,或者說我們有一些小數(shù)點(diǎn)類型,我們?cè)诰壬嫌幸蟮模@一步就要統(tǒng)一的清洗好,就是這一塊。

那么完成格式和字段類型的清洗和調(diào)整之后,我們需要把關(guān)聯(lián)表打平到單表,就是合成寬表,這個(gè)就是我們上一期內(nèi)容主要講的內(nèi)容,做寬表的目的是為了讓我們后期使用這個(gè)數(shù)據(jù)的時(shí)候能夠在一個(gè)較低的成本下去應(yīng)用到更多的有效數(shù)據(jù)。因?yàn)楸热缯f當(dāng)我們想要去用一個(gè)數(shù)據(jù)的時(shí)候,如果我還要產(chǎn)生很多的關(guān)聯(lián)查詢,在大數(shù)據(jù)應(yīng)用的時(shí)候去產(chǎn)生很多的關(guān)聯(lián)查詢,會(huì)影響到我們的效率,一定產(chǎn)生關(guān)聯(lián)查詢還會(huì)產(chǎn)生一個(gè)更大的問題,就是你的數(shù)據(jù)池的性能以及你的數(shù)據(jù)標(biāo)準(zhǔn)化做的是不是好,你的關(guān)聯(lián)出來的數(shù)據(jù)是否準(zhǔn)確等等一系列的問題都要考慮。相當(dāng)你把一個(gè)簡(jiǎn)單的問題可以在前期做好預(yù)防工作就可以避免的問題,留到了后期變成了一個(gè)麻煩。所以我覺得這個(gè)是一個(gè)很重要的一個(gè)。所以我打一個(gè)五角星,我覺得這個(gè)是比較重要的一環(huán)。

那么下面我簡(jiǎn)單提煉了一下,數(shù)據(jù)清洗的意義不是單純過濾掉無用的信息或者是統(tǒng)一一下格式。因?yàn)樗嗍峭瓿汕爸茫褪且欢ㄒ堰@個(gè)事情做在前面,前置的完成關(guān)聯(lián)關(guān)系的處理。比如說我們現(xiàn)在有幾張表,用戶,商品,訂單表,三張表。如果是我們各自獨(dú)立的,在后期我們?nèi)?yīng)用它的時(shí)候會(huì)出現(xiàn)性能瓶頸,就是我剛剛說的關(guān)聯(lián)查詢等等。還會(huì)大幅度提高數(shù)據(jù)計(jì)算邏輯復(fù)雜性,就是我們寫一個(gè)運(yùn)算算法的人或者是寫這個(gè)邏輯代碼的人,他腦子會(huì)比較痛,也許他這個(gè)人并不是很懂業(yè)務(wù),他可能是一個(gè)純技術(shù)人員,他不一定很懂業(yè)務(wù),他還要去找各個(gè)相關(guān)崗位去問這個(gè)表,這個(gè)字段,這個(gè)數(shù)據(jù)有什么含義,跟我們業(yè)務(wù)結(jié)合的時(shí)候有什么用等等,就是會(huì)提高他的工作復(fù)雜程度。所以我們會(huì)把多張表打平到一層,制作一張寬表來容納三個(gè)表所有的字段。

舉個(gè)例子,我有用戶表、商品、訂單表,通常會(huì)是打平的時(shí)候會(huì)用最末端的一張表來打平,也就是說用訂單表來打平。那有的人說為什么不用商品表或者是用戶表來打平。因?yàn)樽罱K會(huì)進(jìn)到池里面的時(shí)候,我們是太在意這個(gè)數(shù)據(jù)的量級(jí)和大小,我只在意這個(gè)數(shù)據(jù)的完整性。也就是說在這個(gè)訂單表里面可能有一件商品賣給了10萬人,那就會(huì)產(chǎn)生10萬個(gè)訂單,如果你以訂單表去作為打平的對(duì)象的話,那會(huì)產(chǎn)生一個(gè)大量的數(shù)據(jù)冗余,也就是說你的訂單表只有5個(gè)字段,訂單、用戶ID、創(chuàng)建訂單時(shí)間、數(shù)量、單價(jià)、總價(jià),這幾個(gè)字段,但是一旦跟用戶表和商品表整合進(jìn)去之后這個(gè)寬表就會(huì)變的很寬,可能會(huì)變成50個(gè)字段甚至100個(gè)字段,這個(gè)情況下是合理的,這個(gè)方式跟我們常規(guī)的開發(fā)是不太一樣,也不能說我們,就是我的實(shí)際應(yīng)用過程中我更提倡大家在這一步去把這個(gè)寬表一次性打到位。哪怕說明明三張表可能加起來只有5個(gè)G數(shù)據(jù),這樣一清洗一搞就變成了50個(gè)G數(shù)據(jù),我覺得沒有關(guān)系的,我覺得我能接受。因?yàn)槟氵@樣后期你應(yīng)用的時(shí)候你會(huì)很爽,訂單號(hào)可以帶出來訂單號(hào)所有的數(shù)據(jù),這個(gè)訂單號(hào)是跟哪一個(gè)用戶關(guān)聯(lián)的,張三李四,然后關(guān)聯(lián)的是什么商品,那么衣服手表還是包包,這些都可以弄出來,可以統(tǒng)一弄出來,這樣后期去做的時(shí)候就會(huì)很方便,所以這個(gè)是我們打平的邏輯。

那么當(dāng)我們的數(shù)據(jù)清洗完成之后,再講一下漏掉了,就是數(shù)據(jù)清洗幾個(gè)方向,我們剛剛前面這一頁說的,三件事情,我們有幾個(gè)方向去做呢?第一個(gè)是標(biāo)準(zhǔn)化,標(biāo)準(zhǔn)化就是我剛剛說的把字段格式統(tǒng)一,然后把邏輯做好,關(guān)聯(lián)做好,這叫標(biāo)準(zhǔn)化。然后做減法是什么含義呢?我們那個(gè)數(shù)據(jù)會(huì)有冗余會(huì)有繁雜的部分,所以這部分?jǐn)?shù)據(jù)是我們不需要的,就比如說我們前面剛剛說的CPU的占用率內(nèi)存的占用率,這些數(shù)據(jù)其實(shí)我們是用不到的,這些數(shù)據(jù)可以在這個(gè)地方去做減法,減掉。還有一種情況就是做清洗的時(shí)候,我們需要去做加法。做加法是什么含義呢?就是說我清洗之前,可能這張表只有15個(gè)字段,清洗完成之后可能會(huì)有25個(gè)字段,這樣是怎么去產(chǎn)生的。舉個(gè)最簡(jiǎn)單的例子,這也是我上一期內(nèi)容里面講過的,就是說我們?nèi)デ逑催@個(gè)字段叫IP地址,我可以通過IP地址一個(gè)字段去延伸出來至少3,4個(gè)字段,一個(gè)是你IP地址本身,然后IP地址本身還有運(yùn)營(yíng)商,因?yàn)镮P地址可以查到你的運(yùn)營(yíng)商,然后你的國(guó)家、省份、地市一級(jí)、區(qū)縣一級(jí),甚至現(xiàn)在更精確可以查到IP地址所在街道,但是這個(gè)準(zhǔn)不準(zhǔn)我不知道,但是至少至少你可以圍繞IP地址去做五六個(gè)字段的加法,這是我覺得很有意義的事情。因?yàn)橄喈?dāng)于你擴(kuò)充了數(shù)據(jù)的維度,本身IP地址只是一串?dāng)?shù)字,本身沒有什么具體的含義,只是說一個(gè)人在網(wǎng)絡(luò)上身份一個(gè)標(biāo)識(shí)而已。但是你通過這個(gè)方式,可以讓這個(gè)數(shù)據(jù)維度更多了,首先多了運(yùn)營(yíng)商的維度,還多了地理位置的維度,這些維度可以讓你在后期去做大數(shù)據(jù)計(jì)算的時(shí)候有更多依據(jù)一個(gè)方式和方法。這是我覺得做清洗最主要三個(gè)方向。

 

 

清洗完了之后我們還需要去做數(shù)據(jù)計(jì)算,這是數(shù)據(jù)計(jì)算就是我們第三塊靈魂。我們可以分兩條線去看,一個(gè)是我們阿里云路線走法和我們開源路線的一個(gè)走法。

第一個(gè)我們先說一下我們有效數(shù)據(jù)池,有效數(shù)據(jù)池就是我們剛剛說的清洗數(shù)據(jù)完成之后得到一個(gè)有效數(shù)據(jù)池,這個(gè)有效數(shù)據(jù)池可以是ES也可以是其他的,這個(gè)隨你喜歡就好,你覺得可以勝任場(chǎng)景和性能要求,你就可以去換別的。那么當(dāng)我們從有效數(shù)據(jù)池開始做計(jì)算的時(shí)候,我們需要做幾件事情,如果你選擇阿里云路線,那么我們可以先把這個(gè)數(shù)據(jù)投遞到我們ODPS表中。那可能現(xiàn)在ODPS表,最近數(shù)加會(huì)對(duì)它的名字有一些變化,但是我還是比較習(xí)慣叫ODPS表,就是大家如果去找產(chǎn)品的時(shí)候可以去到數(shù)加平臺(tái)里面去找MAX computer這個(gè)產(chǎn)品。當(dāng)你把產(chǎn)品導(dǎo)入到ODPS表里面,你就可以去使用數(shù)加平臺(tái)去完成后續(xù)的計(jì)算。比如說它有離線計(jì)算或者是留計(jì)算,然后機(jī)器學(xué)習(xí),深度學(xué)習(xí)等等,就這一些是在一個(gè)平臺(tái)里面去完成的,相當(dāng)于有一套數(shù)據(jù)開發(fā)IDE去完成,就是這一步工作都是在數(shù)加平臺(tái)里面去完成。這是阿里云的路線。

有的同學(xué)可能說,我們還沒有辦法一下子適應(yīng)阿里云,那我們希望了解一下開源路線。其實(shí)這個(gè)業(yè)界方案也很成熟的,比如說我們開源路線就是把有效的數(shù)據(jù)池,數(shù)據(jù)最終還是要導(dǎo)一下的,比如說導(dǎo)到HBase,然后通過HBase數(shù)據(jù)導(dǎo)進(jìn)去之后,我們后面繼續(xù)可以用Spark或者是MR這種計(jì)算工具去對(duì)它數(shù)據(jù)進(jìn)行計(jì)算。這套流程純開源去做的。好處是什么呢?好處相對(duì)阿里的產(chǎn)品,它自由度更高一點(diǎn),然后可選擇開源產(chǎn)品更多一些。當(dāng)然阿里也有流計(jì)算,但是兩邊的產(chǎn)品各有優(yōu)劣,可能阿里的產(chǎn)品有一個(gè)學(xué)習(xí)曲線,然后開源路線就是它的學(xué)習(xí)曲線可能比較透明,因?yàn)槭情_源產(chǎn)品,只要你有動(dòng)手能力都可以搭的。阿里這個(gè)路線比較簡(jiǎn)單,就是花錢就行了,就是花錢享受,這是相互的,各有利弊。

我們目前是有一部分是用了開源,然后大部分都是用阿里云的路徑。原因是什么?可能是大部分企業(yè)剛剛開始做大數(shù)據(jù)轉(zhuǎn)型的時(shí)候,都會(huì)有一個(gè)問題,我好像沒有那么多的數(shù)據(jù),我只是嘗嘗味道,簡(jiǎn)單的試一下,所以我是不是一上來就很重來個(gè)全家桶,開源全家桶這種方案呢,好像又覺得有點(diǎn)猶豫,所以這種情況下我們可以考慮說用一下阿里云按量付費(fèi)就可以了,就這樣肯定花不了幾十塊錢,就可以把這個(gè)業(yè)務(wù)跑通,就可以試一下。我覺得這個(gè)方式學(xué)習(xí)成本可能會(huì)更低一點(diǎn),試錯(cuò)成本稍微更低一點(diǎn)。

 

 

數(shù)據(jù)計(jì)算完成之后,會(huì)進(jìn)入到最后一個(gè)環(huán)節(jié),就是數(shù)據(jù)應(yīng)用,那么數(shù)據(jù)應(yīng)用有幾個(gè)方面。第一個(gè)你可以去基于大數(shù)據(jù)去做一些淺層的機(jī)器學(xué)習(xí),就是簡(jiǎn)單的機(jī)器學(xué)習(xí),挖掘更多的業(yè)務(wù)價(jià)值,就是基于你原有的業(yè)務(wù)數(shù)據(jù)和用戶行為,偏好等等這些數(shù)據(jù),你可以去做挖掘,淺層的挖掘。比如說是電商和媒體,因?yàn)槲冶旧硎亲雒襟w的,可以基于用戶行為數(shù)據(jù)去做智能推薦,這個(gè)方案很多,甚至很多教程都有的,這種方式可能是成本最低,也是對(duì)業(yè)務(wù)幫助立竿見影的一種方式。除了這種方式以外,我們還可以說基于歷史的交互數(shù)據(jù),比如說我們汽車?yán)锩嬗杏涗浧囆畔⒌哪K,其他的設(shè)備里面有記錄各種設(shè)備操作的日志等等,基于這些數(shù)據(jù)去做深度學(xué)習(xí)去開發(fā)一個(gè)定向垂直AI類的應(yīng)用,我覺得也是沒問題的。特別是像現(xiàn)在智能客服挺火的,像文字類客服,基本上是可以做到以假亂真,基本你去咨詢問題,你是感受不到跟你聊天的客服是真人還是機(jī)器人,但是背后還是有一些深度學(xué)習(xí)的內(nèi)容在里面。還有一個(gè)是自動(dòng)駕駛,這個(gè)不用我說大家都比較清楚,像特斯拉等等之類的。

第三個(gè)就是說把所有業(yè)務(wù)數(shù)據(jù)全部喚醒,然后實(shí)施可視化,把數(shù)據(jù)直觀展現(xiàn)出來,讓所有人感知數(shù)據(jù)。其實(shí)這一塊比較好理解,這種常見數(shù)據(jù)像我們數(shù)據(jù)報(bào)表,數(shù)據(jù)化大屏,可視化大屏,就這些都是這種類型的應(yīng)用很多的,這也是一個(gè)實(shí)施周期短,然后立竿見影的一個(gè)方向。

然后第四個(gè)基于行業(yè)大數(shù)據(jù)和模型調(diào)測(cè)去做一些預(yù)測(cè)分析,這個(gè)可能看各個(gè)行業(yè)的情況不同,可能能做的事情也不一樣。比如說像氣象領(lǐng)域去預(yù)測(cè)一下臺(tái)風(fēng)的行走路徑,或者是臺(tái)風(fēng)發(fā)生的概率,下雪的概率。像交通可以預(yù)測(cè)一下什么什么時(shí)間段,這個(gè)路有什么規(guī)模的車流量,會(huì)不會(huì)擁堵,以便于他及時(shí)的去調(diào)配紅綠燈,這些也都是比較成熟應(yīng)用的案例。

那么講完這些應(yīng)用方向之后,我們來說一下對(duì)我們數(shù)據(jù)應(yīng)用大體一個(gè)流程,就像我剛剛說,我們?cè)诖髷?shù)據(jù)池?zé)o你是用ODPS還是用HBase,都是可以的,就是阿里云路線和開源路線的區(qū)別。

然后把這個(gè)數(shù)據(jù)導(dǎo)到大數(shù)據(jù)池之后,我們可以通過阿里云的工具或者是開源工具去做離線計(jì)算,留計(jì)算,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等等,這一系列的事情都是通過這樣的步驟去完成。那么最后的產(chǎn)出也就是我剛剛右邊說的智能類的推薦,AI類的應(yīng)用,數(shù)據(jù)可視化,然后其他更多的一些內(nèi)容。這是數(shù)據(jù)應(yīng)用的一個(gè)方向。

數(shù)據(jù)應(yīng)用的方向講完之后,那我們整體回顧一下我們方案內(nèi)容,架構(gòu)的內(nèi)容,就像我剛剛說的,前面就像我說的這一層,我們前面這一層業(yè)務(wù)數(shù)據(jù)、監(jiān)控?cái)?shù)據(jù)、服務(wù)器日志這一塊匯聚到消息隊(duì)列,然后從消息隊(duì)列消費(fèi)到原始數(shù)據(jù)池中去。然后在原始數(shù)據(jù)池中的基礎(chǔ)上去做一次清洗,清洗完了之后把數(shù)據(jù)存入到我們有效數(shù)據(jù)池,也就是說原始數(shù)據(jù)池和有效數(shù)據(jù)池是隔離的。有效數(shù)據(jù)池完了之后,把數(shù)據(jù)導(dǎo)入到我們大數(shù)據(jù)池中去,比如說HBase或者是ODPS這一塊。那么導(dǎo)入進(jìn)去之后我們可以再通過離線計(jì)算還有留計(jì)算,機(jī)器學(xué)習(xí),深度學(xué)習(xí)等等去開發(fā)我們應(yīng)用。也就是說我們?nèi),我們可能?huì)用到三塊數(shù)據(jù)庫,一個(gè)是我們?cè)紨?shù)據(jù)池?cái)?shù)據(jù)庫,一個(gè)是有效數(shù)據(jù)池?cái)?shù)據(jù)庫,然后我們大數(shù)據(jù)池一個(gè)數(shù)據(jù)庫,也就是說我們會(huì)有三個(gè)數(shù)據(jù)池。

那么有的人可能會(huì)說,那這樣搞來搞去好像成本和維護(hù)代價(jià)太高了,那有一個(gè)簡(jiǎn)單的方式可以告訴大家,就是說我們?cè)紨?shù)據(jù)池和有效數(shù)據(jù)池可以合并成一個(gè)。無非就是一個(gè)清洗完了之后重回到本身就可以了。但是我把它分開的一個(gè)原因是,我們踩過一些坑,就是你一層遞進(jìn)這樣是最安全的,你不會(huì)因?yàn)檎f性能可靠性或者是一些這樣那樣的網(wǎng)絡(luò)問題導(dǎo)致的風(fēng)險(xiǎn)去影響到線上業(yè)務(wù),主要是一個(gè)考慮,這個(gè)是從安全性和穩(wěn)定性去考慮我們會(huì)有三塊數(shù)據(jù)池。但是你從最小可用角度來說,你甚至可以直接把原始數(shù)據(jù)寫到大數(shù)據(jù)池里面,然后再大數(shù)據(jù)池里面去做清洗,還有打平這些事情都在大數(shù)據(jù)池里面做也沒事,具體去看,按照你自己需求和場(chǎng)景去進(jìn)行一些調(diào)整就可以了。

標(biāo)簽: 安全 大數(shù)據(jù) 大數(shù)據(jù)應(yīng)用 代碼 電商 服務(wù)器 基于大數(shù)據(jù) 媒體 數(shù)據(jù)庫 網(wǎng)絡(luò) 行業(yè)大數(shù)據(jù) 轉(zhuǎn)型

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:格雷·艾倫:中國(guó)的人工智能戰(zhàn)略

下一篇:解析業(yè)務(wù)數(shù)據(jù)的特征——《企業(yè)大數(shù)據(jù)實(shí)踐路線》