中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

Badoo的數(shù)據(jù)工程:每天處理 200 億個(gè)事件

2019-08-21    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:Andrew Morgan

譯者:平川 

來源:InfoQ

Badoo 是一個(gè)約會社交網(wǎng)絡(luò),目前每天處理 200 億個(gè)事件,數(shù)據(jù)平臺工程主管 Vladimir Kazanov 解釋說。在 Skills Matter,他談到了在這種規(guī)模下運(yùn)行的一些挑戰(zhàn),以及 Badoo 使用什么工具來處理這些數(shù)據(jù)并生成報(bào)表。

Badoo 的商業(yè)智能部門的目標(biāo)是收集用戶事件信息,對其進(jìn)行處理并生成報(bào)表,從而創(chuàng)建見解。正是這些見解幫助公司做出有條理的決策。Kazanov 解釋說,這些不可或缺的事件經(jīng)歷了一個(gè)生命周期:

接收:使用 Protobuf 生成用于生成事件的各種客戶端庫。然后通過 LSD (一個(gè)用于過濾和路由事件的開源流處理守護(hù)進(jìn)程)對這些事件進(jìn)行流處理。

存儲:數(shù)據(jù)以 ORC 文件格式存儲在數(shù)據(jù)湖中,運(yùn)行在 HDFS 上。具有模式的事件存儲在 Exasol 中,這是一個(gè)列式分布式分析數(shù)據(jù)庫。

處理:數(shù)據(jù)使用 Spark 處理,Spark 是一個(gè)基于 Java 的分布式計(jì)算框架,允許在集群上查詢數(shù)據(jù)。

報(bào)表:使用一個(gè)名為 microstrategy 的報(bào)表工具,它允許使用儀表板和報(bào)表查詢 Exasol。此外,還使用了一個(gè)名為 CubeDB 的自定義工具,旨在更快地運(yùn)行專用報(bào)表查詢。

為了創(chuàng)建一個(gè)新的事件,首先,業(yè)務(wù)分析人員為它創(chuàng)建一個(gè)模式。從這個(gè)模式中,可以為各種平臺生成 Protobuf 客戶端庫。Kazanov 將這種跨平臺支持視為其核心優(yōu)勢之一,因?yàn)樗挂苿雍?Web 應(yīng)用程序可以輕松地開始發(fā)布這個(gè)新事件。

當(dāng)通過 LSD 對事件進(jìn)行流處理時(shí),Badoo 每小時(shí)對這些數(shù)據(jù)進(jìn)行批處理,而不是實(shí)時(shí)處理。這是因?yàn),在失敗的情況下,Kazanov 認(rèn)為重新加載一個(gè)批處理更容易,因?yàn)榕c目標(biāo)數(shù)據(jù)庫進(jìn)行比較以查看批處理編寫是否正確非常簡單。

Kazanov 還認(rèn)為,在 ORC 中存儲數(shù)據(jù)特別有用。他列出了一些原因,如面向列、具有強(qiáng)大的壓縮特性,以及它受到多個(gè)應(yīng)用程序的支持。還可以使用 Hive 輕松地對它進(jìn)行查詢。Hive 是 Hadoop 之上的一個(gè)數(shù)據(jù)庫,使用類似 SQL 的查詢語言。

談到查詢數(shù)據(jù)時(shí),Kazanov 解釋說,Exasol 的優(yōu)點(diǎn)之一是使用 SQL。對于開發(fā)人員來說,學(xué)習(xí)曲線比較低,他們不需要學(xué)習(xí)新的查詢語言。但最重要的是,他認(rèn)為核心的好處在于性能:

Exasol 允許我們在集群中存儲 TB 級的數(shù)據(jù),并對其進(jìn)行真正高效的查詢。我說的是分鐘級,而類似的系統(tǒng)差距較大。

感興趣的讀者可以在線觀看完整的演講。

原文鏈接:

Data Engineering in Badoo: Handling 20 Billion Events per Day

標(biāo)簽: 數(shù)據(jù)工程 處理數(shù)據(jù)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:為什么Kafka會成為微服務(wù)架構(gòu)的事實(shí)標(biāo)準(zhǔn)?

下一篇:入門數(shù)據(jù)科學(xué),70% 的人都做錯(cuò)了