大數(shù)據(jù)的過(guò)去、現(xiàn)在和未來(lái):解讀《大數(shù)據(jù)四十二條》
2020-01-15 來(lái)源:raincent

作者:傅一平 來(lái)源:與數(shù)據(jù)同行
它山之石可以攻玉,何寶宏博士就是一個(gè)吧。
何所思(ID:gh_9820d1a2e9ef)是一個(gè)非常有特點(diǎn)的公眾號(hào),它的主人叫何寶宏,這個(gè)公眾號(hào)這樣介紹自己:一個(gè)從事互聯(lián)網(wǎng)研究 20 余年的老兵,對(duì)技術(shù)和產(chǎn)業(yè)的思考。
然后網(wǎng)上搜索了下:中國(guó)信息通信研究院云計(jì)算與大數(shù)據(jù)研究所所長(zhǎng)。最近他還出了本書(shū):《風(fēng)向》。
自己不認(rèn)識(shí)何寶宏,偶然看到他的這篇《大數(shù)據(jù)四十二條》文章,覺(jué)得有趣有料,本來(lái)想轉(zhuǎn)載的,可惜找不到聯(lián)系方式。
由于沒(méi)有轉(zhuǎn)載權(quán)限,我只得在這篇文章的基礎(chǔ)上擴(kuò)展出我的理解,直到繞過(guò)騰訊原創(chuàng)的檢測(cè),沒(méi)想到一擴(kuò)展就成為了萬(wàn)字長(zhǎng)文。
《大數(shù)據(jù)四十二條》是何博士關(guān)于大數(shù)據(jù)本質(zhì)的一些總結(jié)和思考,每一條都是簡(jiǎn)單的一句話(huà),共 42 句,但每一句似乎都意味無(wú)窮。
這讓我想起中國(guó)古代哲學(xué)的一個(gè)特點(diǎn),就是“言有盡而意不窮“。語(yǔ)言的作用不在于它的固定含義,而在于它的暗示,引發(fā)人去領(lǐng)悟道。
現(xiàn)在我這個(gè)登徒子就要去破這個(gè)道了,在嘗試解釋的過(guò)程中,筆者發(fā)現(xiàn)自己對(duì)于大數(shù)據(jù)的過(guò)去,現(xiàn)在和未來(lái)竟然多了些體會(huì),下面我們就開(kāi)始吧。
第一條:每個(gè)時(shí)代的人,都會(huì)認(rèn)為自己所面對(duì)的數(shù)據(jù)太大了
第二條:每個(gè)時(shí)代對(duì)大的理解都不同,古漢語(yǔ)中“三”就很大了,后來(lái)是“九”
這兩條其實(shí)要表現(xiàn)類(lèi)似的思想,筆者就一起解釋了。
從人類(lèi)誕生以來(lái), 人類(lèi)社會(huì)至少已經(jīng)經(jīng)歷了四次意義重大的信息傳播革命,每次革命的起因都是因?yàn)樾畔⒘康暮A吭鲩L(zhǎng)導(dǎo)致需要用新的技術(shù)去處理它,每一次信息傳播革命都把人類(lèi)文明推向一個(gè)新的發(fā)展階段。
第一次信息傳播革命是語(yǔ)言傳播的誕生:提高了人類(lèi)信息傳播的質(zhì)量、速度與效率。
第二次信息傳播革命是文字傳播的誕生:使得人類(lèi)的信息傳播革命第一次突破時(shí)間、空間的限制, 得以廣泛流傳和長(zhǎng)期保存。
第三次信息傳播革命是印刷傳播的誕生. 報(bào)紙、雜志、書(shū)籍等印刷品大眾媒介迅速普及. 第四次信息傳播革命是模擬式電子傳播的誕生
特別是 20 世紀(jì)以來(lái),伴隨著信息化、互聯(lián)網(wǎng)、移動(dòng)互聯(lián)、物聯(lián)網(wǎng)的發(fā)展,生成數(shù)據(jù)的基礎(chǔ)設(shè)施、采集數(shù)據(jù)的基礎(chǔ)設(shè)施,連接數(shù)據(jù)的基礎(chǔ)設(shè)施大幅增加,產(chǎn)生了超過(guò)以往歷史總和的海量的數(shù)據(jù),為了更好的從數(shù)據(jù)中獲得知識(shí),這個(gè)時(shí)代發(fā)明了各種大數(shù)據(jù)技術(shù) + 人工智能算法來(lái)處理這么龐大的數(shù)據(jù)。
從筆者個(gè)人的經(jīng)歷也可以很明顯看出來(lái),讀中學(xué)的時(shí)候覺(jué)得幾 K 就很大,讀大學(xué)的時(shí)候覺(jué)得幾 M 的軟盤(pán)很大,大學(xué)畢業(yè)了覺(jué)得上 G 的光盤(pán)好大,工作幾年覺(jué)得幾百 G 的數(shù)據(jù)倉(cāng)庫(kù)好大,工作 10 年幾十 T 的數(shù)據(jù)覺(jué)得傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)撐不住了,現(xiàn)在面對(duì)的是幾十上百 P 的數(shù)據(jù),你突然發(fā)現(xiàn)還是太大了。
第三條:所謂大數(shù)據(jù),就是一個(gè)如何將數(shù)據(jù)變小的過(guò)程
大數(shù)據(jù)的一個(gè)特點(diǎn)就是價(jià)值密度低,需要從海量的大數(shù)據(jù)中獲取你需要的東西,就是一個(gè)從數(shù)據(jù)到信息到知識(shí)再到智慧的讓數(shù)據(jù)不斷變小的過(guò)程,比如數(shù)據(jù)倉(cāng)庫(kù)的分層設(shè)計(jì)就是這樣,數(shù)據(jù)越偏向應(yīng)用,最后留存的數(shù)據(jù)就越小,基于越小的數(shù)據(jù)才能歸因業(yè)務(wù)做決策。
我們從海量的 1T 的數(shù)據(jù)中挖掘到的知識(shí)最后往往只要用 1bit 就可以表示,即 1 或者 0。
第四條:2019 年,大數(shù)據(jù)的“大”已不再是核心問(wèn)題,核心是如何更快,比如流計(jì)算
大數(shù)據(jù)的四個(gè)特點(diǎn)中,處理速度快正在成為核心,為什么?
一個(gè)當(dāng)然是人工智能時(shí)代深度學(xué)習(xí)等算法需要更強(qiáng)的算力,傳統(tǒng)的技術(shù)架構(gòu)已經(jīng)很難滿(mǎn)足,另一個(gè)是數(shù)據(jù)在時(shí)效性上的價(jià)值越來(lái)越大,筆者在很多文章中都提到了實(shí)時(shí)數(shù)據(jù)中臺(tái)的建設(shè),流處理已經(jīng)不僅僅是個(gè)獨(dú)立應(yīng)用的問(wèn)題,而是海量的實(shí)時(shí)應(yīng)用如何快速開(kāi)發(fā)部署的問(wèn)題,當(dāng)然這個(gè)快還包括了分析查詢(xún)的快,即時(shí)計(jì)算的快等等,這些都需要諸如麒麟、易鯨節(jié)等引擎的支持等等。
信通院在 2019 年的《大數(shù)據(jù)白皮書(shū)》中提到大數(shù)據(jù)技術(shù)的一個(gè)關(guān)鍵詞是融合,融合的目的就是適應(yīng)各種場(chǎng)景的快,包括:
(1)算力融合:多樣性算力提升整體效率,如 GPU、FPGA、ASIC 等等
(2)流批融合:平衡計(jì)算性?xún)r(jià)比的最優(yōu)解,如 Flink
(3)TA 融合:混合事務(wù) / 分析支撐即時(shí)決策,如 OLAP 與 OLTP 的整合
(4)模塊融合:一站式數(shù)據(jù)能力復(fù)用平臺(tái),阿里叫作大數(shù)據(jù)產(chǎn)品全鏈路化,比如浙江移動(dòng)的 DM 平臺(tái),貫通了從數(shù)據(jù)采集到應(yīng)用的全過(guò)程
(5)云數(shù)融合:云化趨勢(shì)降低技術(shù)使用門(mén)檻,大數(shù)據(jù)基礎(chǔ)設(shè)施云上遷移勢(shì)不可擋,如我們的 PaaS 都是云上集成,業(yè)界比如阿里的數(shù)加等等
(6)數(shù)智融合:數(shù)據(jù)與智能多方位深度整合,如我們的敏捷挖掘平臺(tái),不再需要在數(shù)據(jù)和 AI 兩種平臺(tái)之間搬數(shù)據(jù)
第五條:數(shù)據(jù)大了價(jià)值不一定就高,價(jià)值更可能被大噪音淹沒(méi)掉
其實(shí)反過(guò)來(lái)說(shuō)也一樣,而且更具韻味,數(shù)據(jù)量越大,數(shù)據(jù)的價(jià)值密度不一定就越低,兩者之間并沒(méi)有必然的關(guān)系,這個(gè)結(jié)論有以下的一些解釋?zhuān)?/p>
(1)從采集的角度來(lái)看,傳統(tǒng)數(shù)據(jù)基本都是結(jié)構(gòu)化數(shù)據(jù),每個(gè)字段都是有用的,價(jià)值密度非常高。大數(shù)據(jù)時(shí)代,由于存儲(chǔ)的價(jià)格越來(lái)越低,越來(lái)越多的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)都可以隨便存儲(chǔ),這些數(shù)據(jù)在采集的時(shí)候很多時(shí)候都沒(méi)想清楚有什么用,相對(duì)來(lái)說(shuō)就成了干擾價(jià)值數(shù)據(jù)的噪聲。比如網(wǎng)站訪(fǎng)問(wèn)日志,里面大量?jī)?nèi)容都是沒(méi)價(jià)值的,雖然數(shù)據(jù)量比以前大了 N 倍
(2)從挖掘的角度來(lái)看,從更多的數(shù)據(jù)中挖掘出規(guī)律,顯然面臨著更大噪聲的挑戰(zhàn),因?yàn)閿?shù)據(jù)越多可能形成的模式就越多,意味著訓(xùn)練的時(shí)候?qū)ふ移ヅ淠P偷拇鷥r(jià)就越高,因?yàn)樵肼曉黾恿恕?/p>
第六條:主張讓大數(shù)據(jù)放棄追求因果關(guān)系,就是要讓我們回退到巫術(shù)時(shí)代
這句話(huà)我是認(rèn)同的,《大數(shù)據(jù)時(shí)代》這本書(shū)提到要追求相關(guān)關(guān)系,其實(shí)是大數(shù)據(jù)以用為上的特定階段的功利性表現(xiàn)。
從短期來(lái)講,由于技術(shù)上的便利性使得追求相關(guān)關(guān)系可以獲得當(dāng)前較高的經(jīng)濟(jì)性?xún)r(jià)比,但從長(zhǎng)期來(lái)講,理解因果關(guān)系始終是提升效率的最高辦法,因果關(guān)系是本質(zhì),相關(guān)關(guān)系是表象,理解了因果你就可以有更正確的做事邏輯,可以進(jìn)行大量的遷移學(xué)習(xí),而相關(guān)關(guān)系只能在一種特定的場(chǎng)景中使用。
萬(wàn)有引力定律也是模型,首先是有相關(guān)關(guān)系,然后還挖掘出了更深層次的因果關(guān)系,否則牛頓也許只能將這個(gè)相關(guān)關(guān)系應(yīng)用在蘋(píng)果落地的場(chǎng)景,而根本不可能衍生到萬(wàn)事萬(wàn)物。
只能理解相關(guān)關(guān)系一定程度是業(yè)務(wù)能力不夠的表現(xiàn),比如業(yè)務(wù)的解釋?zhuān)斫饬似【婆c尿布的業(yè)務(wù)本質(zhì)可以讓我們移情換位,起碼你能推測(cè)出英國(guó)男人也許還需要順帶購(gòu)買(mǎi)些奶粉。
商業(yè)領(lǐng)域,科技領(lǐng)域,科學(xué)領(lǐng)域與哲學(xué)領(lǐng)域?qū)τ诖髷?shù)據(jù)的要求是不一樣的,比如追求因果是科學(xué)領(lǐng)域始終的夢(mèng)想和要求,從來(lái)不會(huì)改變。
第七條:主張大數(shù)據(jù)不再采樣而是全集,只是技術(shù)外行的 YY 而已
一方面受限于我們的能力,我們采集的任何數(shù)據(jù)都是有限的,而且數(shù)據(jù)能否采集全到最后其實(shí)是個(gè)哲學(xué)問(wèn)題,比如首先要解決這個(gè)世界到底是連續(xù)的還是離散的問(wèn)題,其次要解決我們能否具備完備的采集條件問(wèn)題,最后還要解決采集設(shè)備的能力問(wèn)題,因此當(dāng)前其實(shí)所有的采集都是采樣,只是程度不同而已,我們只能說(shuō)利用新的傳感器采集的數(shù)據(jù)維度多了,粒度細(xì)了,而不能說(shuō)是全集。
第二方面是大數(shù)據(jù)機(jī)器學(xué)習(xí)的基礎(chǔ)是統(tǒng)計(jì)學(xué)、概率論,你還是在基于采樣的基礎(chǔ)理論來(lái)進(jìn)行實(shí)際的數(shù)據(jù)分析工作。
第八條:大數(shù)據(jù)主張用數(shù)據(jù)說(shuō)話(huà),但數(shù)據(jù)也會(huì)說(shuō)謊,而人類(lèi)更喜歡聽(tīng)故事
面對(duì)同樣的數(shù)據(jù)分析,可以給出不同的結(jié)論,關(guān)鍵點(diǎn)除了數(shù)據(jù),還在于做數(shù)據(jù)分析的這個(gè)人和使用數(shù)據(jù)的那個(gè)人,學(xué)霸和學(xué)渣的區(qū)別大多時(shí)候可不在于看得東西不一樣,而主要在于思考的能力,在社會(huì)上,當(dāng)然還包括道德水平。
關(guān)于人類(lèi)更喜歡聽(tīng)故事是因?yàn)榛虻脑O(shè)定,理性的一本正經(jīng)的闡述和聲情并茂的具有畫(huà)面感的闡述顯然后者更容易吸引人,即使邏輯不堪一擊。因此我們要努力跟基因的設(shè)定進(jìn)行多抗。
有大量的書(shū)在闡述這個(gè)道理,比如《統(tǒng)計(jì)數(shù)據(jù)會(huì)說(shuō)謊》,可惜我們還是會(huì)不自覺(jué)的陷入這種困境。筆者就不太信任這類(lèi)媒體,時(shí)常用不標(biāo)注數(shù)據(jù)來(lái)源和統(tǒng)計(jì)方法的方式來(lái)給出一個(gè)嘩眾取寵的結(jié)論。
第九條:數(shù)據(jù)的內(nèi)涵在不斷豐富中:數(shù)據(jù)是信息,數(shù)據(jù)是資產(chǎn),數(shù)據(jù)是隱私,數(shù)據(jù)是可回收垃圾 (如大數(shù)據(jù)),數(shù)據(jù)是有害垃圾 (如 DDOS 攻擊、垃圾郵件) 等
數(shù)據(jù)是信息是因?yàn)閿?shù)據(jù)管理體系會(huì)為裸奔的數(shù)據(jù)賦予業(yè)務(wù)含義,數(shù)據(jù)是資產(chǎn)是因?yàn)楫?dāng)前數(shù)據(jù)已經(jīng)具備了資產(chǎn)的三個(gè)特征或接近這三個(gè)特征:企業(yè)擁有和控制;能夠用貨幣來(lái)衡量;能為企業(yè)帶來(lái)經(jīng)濟(jì)利益。
當(dāng)然企業(yè)擁有和控制還面臨數(shù)據(jù)確權(quán)的問(wèn)題,用貨幣對(duì)這些數(shù)據(jù)進(jìn)行衡量也是個(gè)復(fù)雜的問(wèn)題,但基本上,數(shù)據(jù)列入企業(yè)的資產(chǎn)負(fù)債表可能只是時(shí)間問(wèn)題。
數(shù)據(jù)是可回收的垃圾是因?yàn)橛眠^(guò)的數(shù)據(jù)還是能迅速回來(lái)繼續(xù)創(chuàng)造價(jià)值,其回收的速度相對(duì)于一般的實(shí)體真是快太多了,數(shù)據(jù)是有害垃圾是因?yàn)槿说脑,跟?shù)據(jù)本身沒(méi)有關(guān)系。
第十條:數(shù)據(jù)的內(nèi)涵日益豐富,將導(dǎo)致管理技術(shù)必然走向碎片化、層級(jí)化或分布式
這里僅僅從技術(shù)的角度去理解內(nèi)涵。
數(shù)據(jù)技術(shù)的碎片化是因?yàn)閿?shù)據(jù)的使用場(chǎng)景太豐富了,為了滿(mǎn)足特定場(chǎng)景需要采用不同的數(shù)據(jù)技術(shù)引擎,無(wú)論是離線(xiàn)的還是流處理的,是在線(xiàn)計(jì)算還是在線(xiàn)查詢(xún)的等等。
數(shù)據(jù)技術(shù)的層級(jí)化是為了滿(mǎn)足不同層次的業(yè)務(wù)需要,比如數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)層標(biāo)準(zhǔn)化是為了書(shū)同文車(chē)同軌,保留最大的細(xì)節(jié)和支撐的可能性,融合模型層是為了靈活快速的滿(mǎn)足前端應(yīng)用的需要,應(yīng)用模型層是為了直接滿(mǎn)足應(yīng)用的需要。
數(shù)據(jù)技術(shù)棧的日益復(fù)雜和增多使得層級(jí)化的管理方式越加必要,比如數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)服務(wù)、數(shù)據(jù)查詢(xún)、數(shù)據(jù)應(yīng)用等等,合理層級(jí)劃分的目的是為了管理簡(jiǎn)單,提升最終效率,比如是否要拆分出服務(wù),數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)處理是否要合并等等。
現(xiàn)在如火如何的數(shù)據(jù)中臺(tái)就是希望用層級(jí)化的切分方式最高效率的為前端賦能,現(xiàn)在到處可以聽(tīng)到“前店后廠(chǎng)”,“大中臺(tái),小前臺(tái)”,“前臺(tái),中臺(tái),后臺(tái)”的概念,都是層級(jí)化思維的體現(xiàn)。
數(shù)據(jù)技術(shù)的分布式是主流了,現(xiàn)在沒(méi)有分布式能力的技術(shù)引擎越來(lái)越難看到了。
第十一條:數(shù)據(jù)管理技術(shù)正在:1)底層數(shù)據(jù)模型,2)業(yè)務(wù)方向,3)架構(gòu)方式和 4)處理時(shí)效性,從四個(gè)維度四散開(kāi)來(lái)
底層數(shù)據(jù)模型強(qiáng)調(diào)數(shù)據(jù)標(biāo)準(zhǔn),構(gòu)建一套完整的數(shù)據(jù)標(biāo)準(zhǔn)體系是開(kāi)展數(shù)據(jù)標(biāo)準(zhǔn)管理工作的良好基礎(chǔ),有利于打通數(shù)據(jù)底層的互通性,提升數(shù)據(jù)的可用性,近期筆者參與的《數(shù)據(jù)標(biāo)準(zhǔn)管理實(shí)踐白皮書(shū) 》就力圖做些指導(dǎo)。
業(yè)務(wù)方向很容易理解,現(xiàn)在大數(shù)據(jù)早從 Garner 曲線(xiàn)消失了,說(shuō)明其已經(jīng)從一個(gè)時(shí)髦的技術(shù)概念演進(jìn)到了應(yīng)用階段,你公司建設(shè)完大數(shù)據(jù)平臺(tái)的第一天,就要考慮大數(shù)據(jù)創(chuàng)造價(jià)值的問(wèn)題,這可比建一個(gè)大數(shù)據(jù)平臺(tái)難多了。
架構(gòu)和處理時(shí)效性前面已經(jīng)說(shuō)了,這里不再累述。
第十二條:分布式的浪潮最早發(fā)生在分析型和非關(guān)系型領(lǐng)域 (即傳統(tǒng)大數(shù)據(jù)),現(xiàn)在殺了個(gè)回馬槍?zhuān)氐绞聞?wù)型和關(guān)系型了
傳統(tǒng)的業(yè)務(wù)應(yīng)用在做技術(shù)選型時(shí),會(huì)根據(jù)使用場(chǎng)景的不同選擇對(duì)應(yīng)的數(shù)據(jù)庫(kù)技術(shù),當(dāng)應(yīng)用需要對(duì)高并發(fā)的用戶(hù)操作做快速響應(yīng)時(shí),一般會(huì)選擇面向事務(wù)的 OLTP 數(shù)據(jù)庫(kù);當(dāng)應(yīng)用需要對(duì)大量數(shù)據(jù)進(jìn)行多維分析時(shí),一般會(huì)選擇面向分析的 OLAP 數(shù)據(jù)庫(kù)。
隨著數(shù)據(jù)越來(lái)越大,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)已經(jīng)難以有效應(yīng)對(duì)數(shù)據(jù)處理和分析的挑戰(zhàn),以 hadoop(NoSQL)為代表的分布式計(jì)算框架應(yīng)運(yùn)而生,它們能有效解決海量的離線(xiàn)分析的需求,這就是所謂的傳統(tǒng)大數(shù)據(jù)的分布式浪潮。
但在數(shù)據(jù)驅(qū)動(dòng)精細(xì)化運(yùn)營(yíng)的今天,海量實(shí)時(shí)的數(shù)據(jù)分析需求已經(jīng)提升日程,無(wú)論是實(shí)時(shí)營(yíng)銷(xiāo)或是實(shí)時(shí)風(fēng)控,都需要 OLTP 系統(tǒng)具備對(duì)于海量數(shù)據(jù)的實(shí)時(shí)分析能力,即事務(wù)和分析一體化,離線(xiàn)的分布式大數(shù)據(jù)框架在時(shí)效性上已經(jīng)難以達(dá)到生產(chǎn)的要求。
混合事務(wù) / 分析處理(HTAP)是 Gartner 提出的一個(gè)架構(gòu),它的設(shè)計(jì)理念是為了打破事務(wù)和分析之間的那堵“墻”,實(shí)現(xiàn)在單一的數(shù)據(jù)源上不加區(qū)分的處理事務(wù)和分析任務(wù)。
這種融合的架構(gòu)具有明顯的優(yōu)勢(shì),可以避免頻繁的數(shù)據(jù)搬運(yùn)操作給系統(tǒng)帶來(lái)的額外負(fù)擔(dān),減少數(shù)據(jù)重復(fù)存儲(chǔ)帶來(lái)的成本,從而及時(shí)高效地對(duì)最新業(yè)務(wù)操作產(chǎn)生的數(shù)據(jù)進(jìn)行分析,比如行列數(shù)據(jù)庫(kù)的優(yōu)化等等。
不知道我的解釋是否切題?
第十三條:數(shù)據(jù)分析技術(shù)的幾個(gè)發(fā)展趨勢(shì):向上與 AI 融合,向下與云和異構(gòu)計(jì)算結(jié)合,中間正流批結(jié)合、分析事務(wù)融合和一體化等
從分析方法的角度看,大致有三個(gè)層次:統(tǒng)計(jì)分析(對(duì)比 / 分組 / 趨勢(shì) / 結(jié)構(gòu))、數(shù)據(jù)分析(相關(guān) / 方差 / 驗(yàn)證 / 回歸 / 時(shí)序)、數(shù)據(jù)挖掘(分類(lèi) / 聚類(lèi) / 關(guān)聯(lián) / 異常),可以預(yù)見(jiàn),未來(lái)的數(shù)據(jù)分析對(duì)于算法的依賴(lài)會(huì)越來(lái)越高,在數(shù)據(jù)挖掘中大量的引入 AI 是顯然的。
從處理能力的角度看,云化趨勢(shì)降低數(shù)據(jù)使用門(mén)檻、多場(chǎng)景要求多樣的分析引擎、OLAP 與 OLTP 緊密融合滿(mǎn)足在生產(chǎn)流程中實(shí)時(shí)的業(yè)務(wù)分析要求也是大勢(shì)所趨,這個(gè)在前面也已經(jīng)提到過(guò)。
第十四條:大數(shù)據(jù)是因?yàn)閿?shù)據(jù)大,區(qū)塊鏈?zhǔn)且驗(yàn)閿?shù)據(jù)貴
“大”是大數(shù)據(jù)的一個(gè)明顯特征,當(dāng)然大也是相對(duì)的。區(qū)塊鏈為了解決數(shù)據(jù)可信分布式賬本問(wèn)題,本質(zhì)上就是個(gè)緩慢、昂貴的數(shù)據(jù)庫(kù),你去看看區(qū)塊鏈處理數(shù)據(jù)的成本就能理解為什么區(qū)塊鏈上的數(shù)據(jù)這么貴:
(1)開(kāi)發(fā)更嚴(yán)格、更緩慢:創(chuàng)建一個(gè)可證明一致性的系統(tǒng)并非易事,所有這類(lèi)系統(tǒng)一開(kāi)始設(shè)計(jì)時(shí)就確保一致性。區(qū)塊鏈中沒(méi)有“快速行動(dòng),打破陳規(guī)”(move fast and break things)一說(shuō)。如果你打破了陳規(guī),就喪失了一致性,區(qū)塊鏈就會(huì)損壞,毫無(wú)價(jià)值。你可能會(huì)想,為什么就不能修正數(shù)據(jù)庫(kù)或重新開(kāi)始、繼續(xù)前進(jìn)?這在集中式系統(tǒng)中很容易實(shí)現(xiàn),但在去中心化系統(tǒng)中很難實(shí)現(xiàn)。你需要共識(shí),即系統(tǒng)中所有參與者達(dá)成一致,那樣才能更改數(shù)據(jù)庫(kù)。
(2)獎(jiǎng)勵(lì)結(jié)構(gòu)很難設(shè)計(jì):增設(shè)正確的激勵(lì)結(jié)構(gòu),并確保系統(tǒng)中的所有參與者無(wú)法濫用或破壞數(shù)據(jù)庫(kù),這同樣是需要考慮的一個(gè)重大因素,為了一次記幾個(gè) BIT 數(shù)據(jù)的賬,你去看看我們?yōu)榱送诘V耗用了多少計(jì)算資源就知道了。
(3)維護(hù)成本非常高:傳統(tǒng)的集中式數(shù)據(jù)庫(kù)只需要寫(xiě)入一次,區(qū)塊鏈需要寫(xiě)入數(shù)千次。傳統(tǒng)的集中式數(shù)據(jù)庫(kù)只需要核查一次數(shù)據(jù),區(qū)塊鏈需要核查數(shù)千次數(shù)據(jù)。傳統(tǒng)的集中式數(shù)據(jù)庫(kù)只需要傳輸一次數(shù)據(jù)以便存儲(chǔ),區(qū)塊鏈需要傳輸數(shù)千次數(shù)據(jù)。
(4)擴(kuò)展起來(lái)確實(shí)很難:擴(kuò)展起來(lái)其難度比傳統(tǒng)的集中式系統(tǒng)至少高出幾個(gè)數(shù)量級(jí)。原因很明顯。同樣的數(shù)據(jù)要放在成百上千個(gè)地方,而不是放在一個(gè)地方。傳輸、驗(yàn)證和存儲(chǔ)的開(kāi)銷(xiāo)很大,因?yàn)閿?shù)據(jù)庫(kù)的每個(gè)副本都要承擔(dān)這筆開(kāi)銷(xiāo),而不是在傳統(tǒng)的集中式數(shù)據(jù)庫(kù)中只要支付一次那些成本。
比特幣這個(gè)應(yīng)用能流行是因?yàn)椴恍枰嗌?jí)改變,傳輸?shù)臄?shù)據(jù)又很少,區(qū)塊鏈中如果你要讓海量的數(shù)據(jù)上鏈,基本上屬于天方夜譚。
第十五條:數(shù)據(jù)可視化是因?yàn)闄C(jī)器看懂了但人看不懂,AI 是因?yàn)槿丝炊藱C(jī)器看不懂
機(jī)器對(duì)數(shù)據(jù)是很敏感的,而人對(duì)數(shù)字天生不敏感,需要用畫(huà)面感來(lái)刺激大腦關(guān)注,因此何博說(shuō)了這是做數(shù)據(jù)可視化的原因。
而人工智能反過(guò)來(lái),比如人對(duì)于貓能快速的識(shí)別而機(jī)器就不行,它需要訓(xùn)練。當(dāng)然這里就存在不公平性,其實(shí)人出生的時(shí)候也不認(rèn)識(shí)貓,只是訓(xùn)練后了才認(rèn)識(shí)的,而且人出生的時(shí)候基因天然就帶了粗糙的認(rèn)知框架,比如嬰兒看到蛇天生就會(huì)還害怕,這顯然不是后天訓(xùn)練出來(lái)的。
但考慮到認(rèn)知,意識(shí)等能力到現(xiàn)在為止人工智能還搞不定,因此這句話(huà)還是沒(méi)錯(cuò)。
第十六條:開(kāi)源已經(jīng)壟斷了大數(shù)據(jù)生態(tài)
我們?cè)瓉?lái)沒(méi)多少原創(chuàng)是公認(rèn)的事實(shí),其實(shí)也蠻好,師夷長(zhǎng)技以制夷嘛,當(dāng)然這句話(huà)放到現(xiàn)在的確有點(diǎn)絕對(duì)化,換個(gè)詞:開(kāi)源和閉源并駕齊驅(qū)。
第十七條:云計(jì)算的優(yōu)點(diǎn)主要被城里的數(shù)據(jù)享受了,環(huán)境破壞的代價(jià)卻留給了村里的數(shù)據(jù),于是就有了邊緣計(jì)算
云計(jì)算對(duì)于帶寬,時(shí)延有非常高的要求,距離云比較近的數(shù)據(jù)可以享受著云計(jì)算帶來(lái)的各種便利,但處在遠(yuǎn)方的數(shù)據(jù)由于昂貴的帶寬和時(shí)延導(dǎo)致無(wú)法有效享受這個(gè)紅利,因此它們考慮就近利用一些本地的設(shè)備來(lái)做些數(shù)據(jù)的加工(顯然這對(duì)本地的設(shè)備要做大量的改造),然后將加工后的極小的數(shù)據(jù)傳送到云端去做處理,這樣帶寬和時(shí)延就都能滿(mǎn)足,所謂邊緣計(jì)算。
第十八條:大數(shù)據(jù)被夾在兩座大山中,一邊是隱私要保護(hù),一邊是資產(chǎn)要流通
第十九條:一年來(lái),GDPR 帶來(lái)了全球隱私保護(hù)立法的熱潮
第二十條:你不能在擁有 100% 安全的情況下,同時(shí)擁有 100% 的隱私和 100% 便利性
這三句話(huà)都很好理解,隱私和變現(xiàn)是雙刃劍,但誰(shuí)能走好這根鋼絲?立法的平衡點(diǎn)在哪里?
第二十一條:現(xiàn)在,每個(gè)人的數(shù)字化身都是數(shù)字奴隸,沒(méi)有歸宿的靈魂在數(shù)字世界里飄蕩
第二十二條:現(xiàn)在電話(huà)號(hào)碼是隱私,而 30 年前,會(huì)公開(kāi)刊登在郵局的黃頁(yè)上
第二十三條:你沒(méi)有隱私, 忘記這事吧
第二十四條:1993 年,”在互聯(lián)網(wǎng)上,沒(méi)有人知道你是一條狗”。而在大數(shù)據(jù)時(shí)代,沒(méi)有人不知道你是一條狗
第二十五條:現(xiàn)在,人與人見(jiàn)面打招呼“你還記得我啊”,是一種幸福。將來(lái),打招呼時(shí)說(shuō)“我還記得你啊”,是一種威脅
這五句話(huà)也在講隱私,只是從多個(gè)角度去看隱私的變遷,考慮到你的私人數(shù)據(jù)都是記錄在別人的電腦里,你竟然在法律上還無(wú)法確認(rèn)這個(gè)權(quán)利,只能任由你的數(shù)字孿生被別人開(kāi)采蹂躪,而且還可以通過(guò)這個(gè)數(shù)字孿生對(duì)你這個(gè)本體產(chǎn)生影響,似乎有點(diǎn)匪夷所思。
而過(guò)去由于號(hào)碼清單的商業(yè)價(jià)值不大,比如量很小,打電話(huà)又很昂貴,獲得的收益肯定還沒(méi)電話(huà)費(fèi)多,因此即使是隱私也沒(méi)人會(huì)用,都是利益驅(qū)動(dòng)造的孽。
第二十六條:數(shù)據(jù)資產(chǎn)化,資產(chǎn)數(shù)據(jù)化,數(shù)據(jù)托管化 (云)
數(shù)據(jù)幫企業(yè)賺取利潤(rùn)的過(guò)程就是數(shù)據(jù)逐步資產(chǎn)化過(guò)程,資產(chǎn)數(shù)據(jù)化大概就是指數(shù)字化貨幣吧,比如比特幣,資產(chǎn)你不需要實(shí)體,只要擁有一個(gè)靠得住的大家都認(rèn)可的一個(gè)數(shù)據(jù)就可以了,數(shù)據(jù)托管化就是你自己的數(shù)據(jù)以后不用存在自己電腦上,也不需要買(mǎi),統(tǒng)統(tǒng)上云讓別人幫你保管,啥服務(wù)都有,而且比你自己買(mǎi)的成本還低。
第二十七條:2019 年,業(yè)界從關(guān)注數(shù)據(jù)技術(shù),轉(zhuǎn)向了關(guān)注數(shù)據(jù)資產(chǎn)
大數(shù)據(jù)技術(shù)早就從 Garner 消失了,現(xiàn)在大家都希望找到大數(shù)據(jù)應(yīng)用的場(chǎng)景,直接創(chuàng)造經(jīng)濟(jì)效益,加速數(shù)據(jù)資產(chǎn)化的過(guò)程,現(xiàn)在說(shuō)得最多的就是數(shù)字化轉(zhuǎn)型和產(chǎn)業(yè)互聯(lián)網(wǎng)。
第二十八條:以前數(shù)據(jù)更多的是信息,現(xiàn)在數(shù)據(jù)更多的是資產(chǎn)
信息是數(shù)據(jù)經(jīng)過(guò)加工處理后得到的另一種形式的數(shù)據(jù),這種數(shù)據(jù)在某種程度上影響接收者的行為,具有客觀(guān)性、主觀(guān)性和有用性,信息是數(shù)據(jù)的含義,數(shù)據(jù)是信息的載體,現(xiàn)在數(shù)據(jù)轉(zhuǎn)化為信息已經(jīng)不夠了,懂含義可能沒(méi)啥用,大家能希望將數(shù)據(jù)轉(zhuǎn)化成知識(shí)或智慧從而產(chǎn)生經(jīng)濟(jì)價(jià)值。
第二十九條:傳統(tǒng)的三大數(shù)據(jù)管理框架,都假設(shè)數(shù)據(jù)是信息,而不是資產(chǎn)
三大管理框架是 dama、cmmi-dmm、dcmm,不知道對(duì)不對(duì)?
第三十條:就像河伯還沒(méi)遇見(jiàn)大海時(shí),任何企業(yè)所擁有的大數(shù)據(jù)其實(shí)都是小數(shù)據(jù)
企業(yè)必然是屬于某個(gè)行業(yè),而這個(gè)行業(yè)的經(jīng)營(yíng)業(yè)務(wù)范圍決定了其擁有的數(shù)據(jù)邊界,阿里帝國(guó)無(wú)論如何膨脹,最多把數(shù)據(jù)粒度做的更細(xì),而無(wú)法做到無(wú)限寬。
第三十一條:數(shù)據(jù)流通,還處于男耕女織的時(shí)代
第三十四條:亟需數(shù)據(jù)流通的經(jīng)濟(jì)理論突破,這個(gè)問(wèn)題是諾獎(jiǎng)層級(jí)的,當(dāng)然也可能是圖靈獎(jiǎng)的
在數(shù)據(jù)的歸屬問(wèn)題未解決前,在數(shù)據(jù)的標(biāo)準(zhǔn)化未建立之前,在數(shù)據(jù)的價(jià)值未有效衡量之前,在數(shù)據(jù)的壁壘未有效打破之前,在數(shù)據(jù)的道德規(guī)范未建立之前,圍繞這些問(wèn)題相關(guān)的法律法規(guī)未制定之前,數(shù)據(jù)流動(dòng)只能采用小作坊的探索方式,風(fēng)險(xiǎn)也是很高的,誰(shuí)能解決這個(gè)問(wèn)題當(dāng)然是牛逼的很。
第三十二條:比特是計(jì)量數(shù)據(jù)規(guī)模的基本單位,不應(yīng)作為計(jì)量數(shù)據(jù)流通價(jià)值的基本單位
筆者寫(xiě)過(guò)一篇文章《數(shù)據(jù)的價(jià)值到底如何評(píng)估》來(lái)衡量數(shù)據(jù)價(jià)值,即用供需來(lái)判斷這個(gè)數(shù)據(jù)的價(jià)值,當(dāng)然還有很多方法,包括周期、頻度、成本等等,但數(shù)據(jù)的可復(fù)制性決定了不可能按量計(jì)費(fèi)。
第三十三條:經(jīng)濟(jì)學(xué)是建立在工業(yè)經(jīng)濟(jì)的假設(shè)上的,而現(xiàn)在已經(jīng)是數(shù)字經(jīng)濟(jì)了
生產(chǎn)要素是人們從事商品和勞務(wù)生產(chǎn)所必備的基本資源,是一個(gè)歷史范疇。英國(guó)著名經(jīng)濟(jì)學(xué)家威廉·配第曾指出:“土地為財(cái)富之母,而勞動(dòng)則為財(cái)富之父和能動(dòng)的要素。”這恰如其分的闡明了農(nóng)業(yè)時(shí)代的生產(chǎn)要素——土地和勞動(dòng)。
18 世紀(jì) 60 年代,以“機(jī)械化”為基本特征的第一次工業(yè)革命爆發(fā),人類(lèi)社會(huì)進(jìn)入工業(yè)時(shí)代,機(jī)器設(shè)備這一物質(zhì)資本成為決定經(jīng)濟(jì)社會(huì)發(fā)展的第一生產(chǎn)要素。
19 世紀(jì)下半葉,以“電氣化”為基本特征的第二次工業(yè)革命爆發(fā)。隨著社會(huì)化大生產(chǎn)的發(fā)展,資本的作用進(jìn)一步強(qiáng)化。同時(shí),資本所有權(quán)與經(jīng)營(yíng)權(quán)日益分離,企業(yè)家從勞動(dòng)大軍中脫穎而出,成為一個(gè)新的群體。企業(yè)家才能開(kāi)始成為獨(dú)立的生產(chǎn)要素。
上世紀(jì) 80 年代開(kāi)始,信息通信技術(shù)蓬勃發(fā)展,數(shù)字革命開(kāi)始興起。特別是當(dāng)前以云計(jì)算、移動(dòng)物聯(lián)網(wǎng)、人工智能為代表的新一輪科技革命席卷全球,信息技術(shù)與經(jīng)濟(jì)社會(huì)以前所未有的廣度和深度交匯融合,人類(lèi)社會(huì)正在被網(wǎng)絡(luò)化連接、數(shù)據(jù)化描繪、融合化發(fā)展。
知識(shí)和信息的充分挖掘和有效利用,推動(dòng)了諸多領(lǐng)域重大而深刻的變革,極大改變了人們的生產(chǎn)、生活和消費(fèi)模式,對(duì)經(jīng)濟(jì)發(fā)展、社會(huì)生活和國(guó)家治理產(chǎn)生著越來(lái)越重要的作用。數(shù)字化的知識(shí)和信息作為關(guān)鍵生產(chǎn)要素,推動(dòng)人類(lèi)社會(huì)進(jìn)入全新的數(shù)字經(jīng)濟(jì)時(shí)代。下表顯示了生產(chǎn)要素的變遷規(guī)程:

第三十五條:信息技術(shù)革命前人類(lèi)是信息的餓漢,就像工業(yè)革命前人類(lèi)是食品的餓漢
這個(gè)很好理解。
第三十六條:擁有知識(shí)的不一定是知識(shí)分子,也可能只是個(gè)知識(shí)的吃貨
引用何博的自己以前文章的解釋?zhuān)?/p>
其實(shí)就是在講信息革命前由于傳播困難,很多知識(shí)分子利用信息不對(duì)稱(chēng)占盡優(yōu)勢(shì),但信息革命后,吃再多知識(shí)的胖子,也沒(méi)有互聯(lián)網(wǎng)知道的多,因?yàn)橹R(shí)富足后人類(lèi)需要的是智慧,大腦的 CPU 快燒掉了,神經(jīng)網(wǎng)絡(luò)快堵住了,內(nèi)存快失效了,消化不了這么多知識(shí)了,出現(xiàn)了信息焦慮,連接恐懼。
遍地都是知識(shí)的吃貨,知識(shí)的胖子,卻越來(lái)越缺乏獨(dú)立思考和智慧。為給知識(shí)胖子減肥,減少垃圾知識(shí)的攝入,需要提高知識(shí)的消化能力,是當(dāng)務(wù)之急。
第三十七條:數(shù)據(jù)是 21 世紀(jì)的石油,但別忘了 20 世紀(jì)前石油不是戰(zhàn)略資源
第三十八條:石油應(yīng)用也曾經(jīng)歷過(guò)至暗時(shí)期:當(dāng)洛克菲勒讓石油 (煤油) 主要用于照明時(shí),愛(ài)迪生發(fā)明了電燈。石油的主要用途轉(zhuǎn)向動(dòng)力,是因?yàn)槠?chē)的發(fā)明和亨利福特將其平民化
這兩句話(huà)隱含的含義是數(shù)據(jù)如果沒(méi)有應(yīng)用的極大普及,就沒(méi)有戰(zhàn)略?xún)r(jià)值,正如動(dòng)力應(yīng)用讓石油成為了戰(zhàn)略資源一樣,但現(xiàn)在廣告和金融已經(jīng)讓數(shù)據(jù)先飛起來(lái)了。
第三十九條:記憶是例外,忘記是常態(tài),于是我們發(fā)明了文字、書(shū)籍和大數(shù)據(jù)來(lái)當(dāng)人腦的外設(shè)。人類(lèi)社會(huì)的諸多規(guī)則和習(xí)慣,是建立在人人都有健忘癥的假設(shè)上的,但這個(gè)假設(shè)正在被大數(shù)據(jù)連根拔掉
有了數(shù)字孿生,你所有的信息都被自動(dòng)記錄,因此未來(lái)靠記憶獲取的任何優(yōu)勢(shì)都將灰飛煙滅,比如讓孩子練習(xí)心算純粹是浪費(fèi)時(shí)間,以前的這些規(guī)則和習(xí)慣也許逐步會(huì)成為一種藝術(shù)展示,陶冶情操而已,現(xiàn)在你提筆忘字有很大問(wèn)題嗎?
第四十條:算法是數(shù)字世界的運(yùn)行規(guī)則
算法是處理信息的本質(zhì),因?yàn)槌绦虮举|(zhì)上是一個(gè)算法來(lái)告訴計(jì)算機(jī)確切的步驟來(lái)執(zhí)行一個(gè)指定的任務(wù),是一系列解決問(wèn)題的清晰指令。
算法代表著用系統(tǒng)的方法描述解決問(wèn)題的策略機(jī)制。在數(shù)字世界中,算法就是權(quán)力,是虛擬世界中的法律和制度。
事實(shí)上,整個(gè)世界的運(yùn)行規(guī)則都是由算法決定的,不同的學(xué)者從不同的角度也對(duì)算法進(jìn)行了詮釋。
《未來(lái)簡(jiǎn)史》中,提到了生物是算法,并從生物的生存和繁衍兩個(gè)角度進(jìn)行論證。
《原則》中,作者認(rèn)為自己能取得成功的原因并不是自己知道了多少,而是自己在無(wú)知的情況下,知道如何做。作者在生活和工作中對(duì)遇到的問(wèn)題進(jìn)行不斷地總結(jié)反思,從而形成做事情的一系列步驟,而這些原則推動(dòng)了作者取得了今天的成功。
人生腳本中,提出人的命運(yùn)也是有腳本的,形成于童年時(shí)期,他有開(kāi)始、展開(kāi)、高潮、結(jié)束和尾聲。我們后期的人生中,會(huì)根據(jù)人生腳本不斷進(jìn)行重復(fù)。
第四十一條:算法沒(méi)有偏見(jiàn),只有人才會(huì)有
加納裔科學(xué)家 Joy Buolamwini 一次偶然發(fā)現(xiàn),人臉識(shí)別軟件竟無(wú)法識(shí)別她的存在,除非帶上一張白色面具。有感于此,Joy 發(fā)起了 Gender Shades 研究,發(fā)現(xiàn) IBM、微軟和曠視 Face++ 三家的人臉識(shí)別產(chǎn)品,均存在不同程度的女性和深色人種“歧視”(即女性和深色人種的識(shí)別正確率均顯著低于男性和淺色人種),最大差距可達(dá) 34.3%。
今日頭條創(chuàng)始人張一鳴所信奉那句“算法沒(méi)有價(jià)值觀(guān)“,但今日頭條很多算法的結(jié)果卻引來(lái)了爭(zhēng)議,筆者的文章《數(shù)據(jù)分析師的算法推薦是否會(huì)陷入“真實(shí)的謊言”?》、《談?wù)劥髷?shù)據(jù)時(shí)代的別被算法困在“信息繭房”》也討論過(guò)這個(gè)問(wèn)題。
那么,算大到底有沒(méi)有偏見(jiàn)?
我的理解是這樣:雖然算法并不會(huì)生而歧視,工程師也很少刻意將偏見(jiàn)教給算法,但算法的制作過(guò)程不可避免摻雜了偏見(jiàn),比如數(shù)據(jù)集的構(gòu)建缺乏代表性,數(shù)據(jù)特征的選擇有偏頗、人工打標(biāo)帶入的主觀(guān)性等等,在從人到機(jī)的遷移中,偏見(jiàn)習(xí)得了某種“隱匿性”與“合法性”,并被不斷實(shí)踐和放大。
因此,機(jī)器從未獨(dú)立創(chuàng)造偏見(jiàn),但只要有人的參與,偏見(jiàn)就不可避免,從結(jié)果來(lái)看就是這樣。
第四十二條:電磁介質(zhì)的普遍壽命是 5-30 年,1000 年后“它們”如何考古呢?
這個(gè)我倒不怎么擔(dān)心,定期備份更新唄,比如我 5 年換一次機(jī)器,硬盤(pán)也順便搗鼓一次,新的硬盤(pán)裝新老數(shù)據(jù),只要你的新硬盤(pán)容量足夠大。
恭喜你看到這里,我通過(guò)解讀,你通過(guò)閱讀,我們都經(jīng)歷了一次大數(shù)據(jù)的洗禮,希望你能給出自己更深刻的見(jiàn)解。
本文轉(zhuǎn)載自公眾號(hào)與數(shù)據(jù)同行(ID:ysjtx_fyp)。
原文鏈接:https://mp.weixin.qq.com/s/QUOHU5yAvwIIf0KlQCKkdg
標(biāo)簽: 大數(shù)據(jù) 大數(shù)據(jù)技術(shù)
版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀(guān)點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。