中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

TigerGraph 獨(dú)家解讀:圖數(shù)據(jù)庫的現(xiàn)狀與未來

2018-12-31    來源:raincent

容器云強(qiáng)勢上線!快速搭建集群,上萬Linux鏡像隨意使用

作者:陳思

2012 年,TigerGraph 在硅谷成立,由華人科學(xué)家許昱博士創(chuàng)立,深耕大數(shù)據(jù)圖分析領(lǐng)域。在默默耕耘 6 年之后,2017 年 11 月 8 日,TigerGraph 的下一代圖數(shù)據(jù)庫在美國正式發(fā)布,在市場上引起了軒然大波,這家公司也一躍成為了受人關(guān)注的明星。

隨著人工智能技術(shù)的發(fā)展,市場對于性能的要求越來越高,然而光靠硬件的升級已經(jīng)無法完全滿足使用者的需求,配套的軟件產(chǎn)品如果跟不上發(fā)展,效率也無法達(dá)到要求。圖數(shù)據(jù)庫的出現(xiàn),在很大程度上解決了性能的問題。

或許對有些讀者來說,這還是一個(gè)新的概念,我們專門對 TigerGraph 中國區(qū)總經(jīng)理烏明捷進(jìn)行了獨(dú)家專訪,除了為我們科普圖數(shù)據(jù)庫的基礎(chǔ)概念外,他還從市場、技術(shù)等層面全面解讀了圖數(shù)據(jù)庫的應(yīng)用場景和發(fā)展未來。

以下是視頻采訪的全部內(nèi)容,為方便讀者查看,視頻下方也附上了文字內(nèi)容。

問:感謝老師接受采訪,首先請您做下自我介紹,然后簡單介紹下您所在的公司及創(chuàng)始人的基本情況。

烏明捷:我是 TigerGraph 負(fù)責(zé)中國區(qū)的總經(jīng)理烏明捷,TigerGraph 是個(gè)年輕的公司。我們總部是在硅谷,創(chuàng)立于 2012 年,創(chuàng)始人許昱是華裔的科學(xué)家。他曾經(jīng)在推特等業(yè)界知名的大公司工作過。

他參與過前沿技術(shù)的研究與收購,在工作過程當(dāng)中,他看到了接下來十年的非常大的技術(shù)趨勢,圖數(shù)據(jù)庫應(yīng)用將會(huì)有非常普遍的應(yīng)用的機(jī)會(huì)。通過了解市面上現(xiàn)有的開源的工具,他覺得有機(jī)會(huì)去做這樣的事情。另外在一個(gè)非常偶然的機(jī)會(huì),我們也找到了高性能圖計(jì)算的專家。

我們創(chuàng)始人有個(gè)概念,也是我們團(tuán)隊(duì)非常認(rèn)同的一個(gè)價(jià)值觀:圖數(shù)據(jù)庫是新興的技術(shù),速度和支持?jǐn)?shù)據(jù)規(guī)模是它的核心價(jià)值,如果圖數(shù)據(jù)庫不夠快,新的技術(shù)是不會(huì)替代舊的技術(shù)。在整個(gè)公司的發(fā)展過程當(dāng)中,我們對于性能的追求,對于滿足工業(yè)界應(yīng)用的追求,始終沒有停止,其過程也是非常的艱苦。我們公司是 2017 年才正式發(fā)布產(chǎn)品,在此之前,我們整整做了 5 年的開發(fā)。這個(gè)過程確實(shí)是一個(gè)非常難的過程,因?yàn)槲覀儚氖碌念I(lǐng)域是底層技術(shù)的部分,非常艱苦,很少人去做。5 年的時(shí)間,很慶幸的是我們能走到今天這個(gè)程度,現(xiàn)在的產(chǎn)品也成熟了。

問:能否請您為我們普及一下圖數(shù)據(jù)庫的概念?先來談?wù)勈裁词菆D數(shù)據(jù)庫?

烏明捷:首先,圖數(shù)據(jù)庫不是存儲(chǔ)圖像的數(shù)據(jù)庫,那個(gè)是 Image 數(shù)據(jù)庫。圖數(shù)據(jù)庫和傳統(tǒng)的關(guān)系數(shù)據(jù)庫比較,就是圖和表的差別。圖數(shù)據(jù)庫是用點(diǎn)和邊來表達(dá)數(shù)據(jù)之間的關(guān)系,是更自然的存儲(chǔ)方式,更專注于對象之間的關(guān)聯(lián)。傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,可能是在記錄交易的場景更有優(yōu)勢,在應(yīng)用發(fā)展的某一個(gè)階段更容易讓人學(xué)習(xí)和使用。

現(xiàn)在,我們講社交關(guān)系是一種圖,我們買東西、交易是一種圖,資金是一種圖,包括現(xiàn)在的知識也是一種圖,圖數(shù)據(jù)庫是在知識圖譜底層的一個(gè)基礎(chǔ)設(shè)施,它把數(shù)據(jù)用圖、用點(diǎn)和邊的方式存儲(chǔ)起來。

問:從您的角度看來,研發(fā)人員為什么需要圖數(shù)據(jù)庫呢?與傳統(tǒng)數(shù)據(jù)庫相比,圖數(shù)據(jù)庫有哪些方面的優(yōu)勢、特點(diǎn)?可以舉例來說明。

烏明捷:研發(fā)人員用圖數(shù)據(jù)庫最簡單的一個(gè)原因就是性能。大數(shù)據(jù)時(shí)代,數(shù)據(jù)量非常大,大家收集的數(shù)據(jù)非常多,我拿到數(shù)據(jù)不代表我能利用數(shù)據(jù),真正利用數(shù)據(jù)是獲取現(xiàn)有數(shù)據(jù)中分析產(chǎn)生業(yè)務(wù)價(jià)值。研發(fā)人員現(xiàn)在轉(zhuǎn)向圖數(shù)據(jù)庫很大的原因是:我有大數(shù)據(jù)平臺(tái),但是我的查詢很慢,看上去靠硬件已經(jīng)不再能產(chǎn)生質(zhì)的變化,這個(gè)時(shí)候技術(shù)人員想到的是:我是不是有個(gè)新的方法解決這個(gè)問題?圖天生關(guān)注對象和對象之間的關(guān)系的,當(dāng)你去做深度搜索的時(shí)候,它就會(huì)帶來一個(gè)特別大的優(yōu)勢。

我覺得還有一個(gè)原因就是大家現(xiàn)在在業(yè)務(wù)場景當(dāng)中去關(guān)注關(guān)系,發(fā)現(xiàn)隱藏的關(guān)系,這個(gè)在傳統(tǒng)的數(shù)據(jù)庫里很難做到,比如給到你兩個(gè)人,問這兩個(gè)人是不是有關(guān)聯(lián)。傳統(tǒng)的數(shù)據(jù)庫是:查詢的條件是通過看手機(jī),還是看地址,你得告訴我,不然的話沒法查。在圖上面的話,它的模型就非常容易理解,我查的是這兩個(gè)點(diǎn)之間有沒有路走的通,只要能夠走的通,不管是手機(jī)還是地址,都是有關(guān)聯(lián)的。這是圖天生的一些優(yōu)勢。

問:根據(jù)您目前的經(jīng)驗(yàn),圖數(shù)據(jù)庫的目前發(fā)展情況到了怎樣的程度?在程序員群體中的普及度如何?

烏明捷:這個(gè)問題分兩個(gè)情況來講。現(xiàn)在在硅谷,在海外,圖的應(yīng)用已經(jīng)有一個(gè)共識:它可能是接下來十年的大數(shù)據(jù)智能信息查詢的一個(gè)大趨勢;在中國,我們看到越來越多的公司開始關(guān)注這個(gè)事情,今年下半年,特別是百度、阿里他們有推出自己的圖數(shù)據(jù)庫,從 TigerGraph 的角度來講,我們非常高興的是有更多公司開始去做這個(gè)事情,大家一起把這個(gè)市場喚醒,F(xiàn)在越來越多的人來咨詢我們,大家現(xiàn)在都在探索應(yīng)用的場景,希望真正能夠產(chǎn)生業(yè)務(wù)價(jià)值,有一些先行的客戶,已經(jīng)在這個(gè)事情上獲得了非常好的回報(bào),我們看到后來他們就在圖上面投入非常多。

問:請您介紹一下 TigerGraph 公司的團(tuán)隊(duì)當(dāng)初是怎么樣的原因接觸到圖數(shù)據(jù)庫,后來選擇研究這一技術(shù)的動(dòng)力是什么呢?

烏明捷:我們前面有談過,因?yàn)閯?chuàng)始人本身是做大數(shù)據(jù)的,他很早就看到了大數(shù)據(jù)在發(fā)展到一定階段的時(shí)候,信息獲取不再是困難,而是已有的數(shù)據(jù)里面,提取需要的部分越來越困難,這個(gè)時(shí)候靠硬件已經(jīng)不再能解決問題,他看到了這個(gè)場景;第二個(gè),我們的創(chuàng)始人一直是在工業(yè)界,他在工業(yè)界的經(jīng)驗(yàn)非常豐富,我們看到市場上有一個(gè)非常大的缺口,沒有人去認(rèn)真的研究這個(gè)事,所以我們花了很長的時(shí)間去做這件事。

問:在您看來,圖數(shù)據(jù)庫與人工智能技術(shù)的結(jié)合點(diǎn)在哪里?它的出現(xiàn)解決了人工智能數(shù)據(jù)方面的哪些痛點(diǎn)?

烏明捷:人工智能是個(gè)很大的話題,我想把我們這個(gè)問題就再往小稍微限制一下,因?yàn)槿斯ぶ悄馨母拍詈芏啵▓D像識別,智能機(jī)器人,這些是另外一個(gè)領(lǐng)域的部分。我們可能比較關(guān)注的部分是和機(jī)器學(xué)習(xí)、商品的實(shí)時(shí)推薦以及實(shí)時(shí)行為的解讀,這一部分是能夠通過數(shù)據(jù)獲取來進(jìn)行分析的。

因?yàn)闄C(jī)器學(xué)習(xí)非常依賴于特征,所以我們認(rèn)為在機(jī)器學(xué)習(xí)和實(shí)時(shí)推薦的這個(gè)角度,我們可以提供兩個(gè)東西:第一,在圖上面的話,我們是無差別的去提取特征的,在計(jì)算之前,你不需要告訴我,我要往哪個(gè)特征方向去走,這就是前面講到圖的特性,因?yàn)閷ξ襾碇v都是一樣的點(diǎn),只是不同的類型關(guān)系而已,對圖來講,我們可以對所有的特征進(jìn)行關(guān)聯(lián),沒有好的特征壞的特征,所有的能關(guān)聯(lián)起來就是特征。

第二,因?yàn)槲覀兡軌蜃龅綄?shí)時(shí)的計(jì)算,在演講的時(shí)候,我分享了一個(gè)案例,我們把傳統(tǒng)的靜態(tài)的特征,通過一度聯(lián)系人、兩度的聯(lián)系人,把它的特征提升一個(gè)量級,我們把 20 個(gè)特征提升到了 122 個(gè)特征,這個(gè)是最終我們固定下來有用的特征。有一個(gè)理論叫做六度理論,就是世界上任何兩個(gè)人通過六個(gè)人的關(guān)系就能夠關(guān)聯(lián)起來,當(dāng)數(shù)據(jù)能夠從它的一度聯(lián)系人開始,每多走一步,我們獲得到的特征相關(guān)的信息是指數(shù)級增長,這些增長的信息,帶給機(jī)器學(xué)習(xí)的豐富性和準(zhǔn)確性會(huì)有質(zhì)的提升,這個(gè)在我們的很多案例里得到了體現(xiàn)。

問: TigerGraph 的圖數(shù)據(jù)庫有哪些優(yōu)勢和特點(diǎn)?與同類產(chǎn)品相比有什么區(qū)別?

烏明捷:我們前面也聊到了,我們非常強(qiáng)調(diào)性能,所以我們給自己了一個(gè)定義:我們是一個(gè)分布式的實(shí)時(shí)大圖。

解釋三個(gè)概念:第一個(gè)我們是分布式的,我們要能支持大數(shù)據(jù)量級,需要能滿足現(xiàn)在大數(shù)據(jù)時(shí)代規(guī)模的支撐;第二個(gè)我們是實(shí)時(shí)的,我們的數(shù)據(jù)可以實(shí)時(shí)更新,然后通過分布式的技術(shù),我們希望最終提供的查詢在秒級返回;最后我們因?yàn)橛昧?G-SQL 的開發(fā)語言,讓技術(shù)人員快速學(xué)習(xí)并發(fā)揮優(yōu)勢。同時(shí)我們開源了自己的 G-SQL 算法庫,希望可以讓這個(gè)學(xué)習(xí)過程變得更加容易。

我們看到了市面上很多開源的圖數(shù)據(jù)庫還有傳統(tǒng)關(guān)系型數(shù)據(jù)庫的特征來描述事件,而我們從最開始的時(shí)候,就是按照圖論的方式研發(fā),是完全從圖的結(jié)構(gòu)去適應(yīng)的這樣一個(gè)系統(tǒng),如果去試著用一下我們的系統(tǒng),剛開始大家上手有點(diǎn)陌生感,但是用了一段時(shí)間之后,對圖理解越深的人會(huì)把這個(gè)技術(shù)用的越好。

問:前不久,紐約大學(xué)、紐約大學(xué)上海分校、AWS 共同開源了一個(gè)面向圖神經(jīng)網(wǎng)絡(luò)及圖機(jī)器學(xué)習(xí)的全新框架,命名為 Deep Graph Library(DGL),您如何評價(jià)這一框架?它的出現(xiàn)對于圖數(shù)據(jù)庫與 AI 的研究帶來了哪些影響?

烏明捷:有關(guān) DGL 我們也去做了一點(diǎn)功課。DGL 是一個(gè)面向?qū)S梅治鲱I(lǐng)域,或者某個(gè)特定方向的實(shí)時(shí)查詢與高性能模型,和我們現(xiàn)在從事的領(lǐng)域有所區(qū)別。工業(yè)界的圖數(shù)據(jù)庫,我們追求的方向是一個(gè)通用,一個(gè)基礎(chǔ)性的模式,現(xiàn)在他們推出的這個(gè)模型,我們打個(gè)比方,像 AI 推出的芯片,它會(huì)在某一類的應(yīng)用當(dāng)中做盡可能的多的優(yōu)化,但是不會(huì)考慮作為一個(gè)基礎(chǔ)軟件用在所有的方向里。

問:關(guān)于圖數(shù)據(jù)庫一直有一個(gè)爭論:圖數(shù)據(jù)庫是否比關(guān)系型數(shù)據(jù)庫更加先進(jìn)?您對于這一爭論的看法是怎樣的?

烏明捷:只是從技術(shù)和學(xué)術(shù)角度來講,圖數(shù)據(jù)庫是關(guān)系型數(shù)據(jù)庫的一個(gè)超級;從工業(yè)角度、實(shí)用角度來說,現(xiàn)有的關(guān)系型數(shù)據(jù)庫已經(jīng)發(fā)展的非常成熟了,對用戶來說有一個(gè)非常大的挑戰(zhàn)是遷移的成本,我認(rèn)為現(xiàn)在成熟的應(yīng)用和應(yīng)用場景,它已經(jīng)達(dá)到足夠的業(yè)務(wù)場景的需要的情況下,客戶是不會(huì)輕易的去做這個(gè)變換,但是在未來的十年里面,在大數(shù)據(jù)、機(jī)器學(xué)習(xí)、AI 場景當(dāng)中,關(guān)系型數(shù)據(jù)庫會(huì)有瓶頸,這個(gè)時(shí)候大家會(huì)考慮圖的新的圖的應(yīng)用場景,我認(rèn)為新的圖的應(yīng)用場景會(huì)更多一點(diǎn)。

問:有關(guān)圖數(shù)據(jù)庫未來的發(fā)展,您有怎樣的期望?

烏明捷:開源的圖數(shù)據(jù)庫,我覺得會(huì)走向穩(wěn)定,會(huì)應(yīng)用在一些成熟的應(yīng)用場景,比如說數(shù)據(jù)不必頻繁更新,我的查詢是可以等待的一個(gè)場景下,這個(gè)技術(shù)會(huì)逐漸穩(wěn)定下來,適用的人群會(huì)很多。

現(xiàn)在的業(yè)界在高速發(fā)展,有很多研發(fā)的量投入在實(shí)時(shí)處理或者超大數(shù)據(jù)量級上面,我們現(xiàn)在還在推進(jìn)我們更極限的性能,因?yàn)閷?shí)際使用場景中,特別在現(xiàn)在的中國市場,大數(shù)據(jù)規(guī)模是非常驚人的。

我們在實(shí)際的場景里面看到,現(xiàn)在的系統(tǒng)還是有邊界的,我們在探索真正超過這個(gè)邊界的極限在哪里,在保證實(shí)時(shí)的情況下,現(xiàn)在業(yè)界的一些大的廠商研發(fā)的方向都在往這個(gè)方向去。我們看到了金融應(yīng)用、電商的應(yīng)用,他們對于時(shí)間,對于響應(yīng)速度,對于數(shù)據(jù)規(guī)模都有非常嚴(yán)格的要求,這個(gè)部分的前沿性,不光是在國內(nèi),整個(gè)在業(yè)界,在全球范圍之內(nèi)都是現(xiàn)在非常熱的東西。

標(biāo)簽: 大數(shù)據(jù) 大數(shù)據(jù)平臺(tái) 大數(shù)據(jù)時(shí)代 電商 金融 數(shù)據(jù)庫 搜索 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:USNews發(fā)布全球大學(xué)CS領(lǐng)域2019排名:清華第一,華科大第六

下一篇:Analytics Zoo:在Spark上實(shí)現(xiàn)分布式Tensorflow和BigDL管道的統(tǒng)一分析和AI平臺(tái)