中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

BigData 2018 最前沿:讓人工智能找到可操作的防范惡行最優(yōu)決策

2018-12-10    來源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

本文作者趙通,是來自美國(guó)圣母大學(xué)計(jì)算機(jī)系 DM2 實(shí)驗(yàn)室的博士生。本文是基于 BigData 錄用論文《Actionable Objective Optimization for Suspicious Behavior Detection on Large Bipartite Graphs》的解讀。

前言

惡行是可怕的。章瑩穎綁架失蹤案過去了 500 余天,還沒有實(shí)質(zhì)進(jìn)展。2017 年 4 月,未滿 27 歲的北大碩士畢業(yè)生章瑩穎作為訪問學(xué)者前往美國(guó)伊利諾伊大學(xué)香檳分校交流學(xué)習(xí)。6 月 9 日下午 2 點(diǎn),章乘坐公交赴校外公寓簽約,在轉(zhuǎn)站等車時(shí),不慎上了一輛陌生男子的黑色轎車,之后再也沒有人見過她。當(dāng)晚其好友與教授報(bào)警,一直到 6 月 30 日,美國(guó)警方拘捕一名白人男子,稱章可能已死亡。7 月 12 日,聯(lián)邦大陪審團(tuán)正式起訴嫌疑人,到目前為止,此案仍在法庭受理當(dāng)中。類似的情形在國(guó)內(nèi)也時(shí)有發(fā)生,「滴滴順風(fēng)車」命案便是血淋淋的悲劇。每每出現(xiàn)在新聞標(biāo)題里的「又一女孩」或是「三個(gè)月內(nèi)第二名乘客」這些字眼,都讓人納悶,究竟是什么讓這類事件一而再、再而三地發(fā)生。惡行不只出現(xiàn)在現(xiàn)實(shí)生活中,在網(wǎng)絡(luò)中也無處不在,如在淘寶和 eBay 上就存在買家「霸凌」賣家的行為:買家只需購(gòu)買賣家的一件便宜商品,即獲得給商品評(píng)價(jià)、打分的權(quán)利。買家如若無視商品質(zhì)量,打出極低的分?jǐn)?shù),賣家的平均分?jǐn)?shù)就會(huì)降低,而平臺(tái)推薦系統(tǒng)往往根據(jù)評(píng)分排行,評(píng)分稍微降低一點(diǎn),都會(huì)導(dǎo)致賣家在和其余商家競(jìng)爭(zhēng)時(shí)無法出現(xiàn)在被推薦的第一頁,從而失去生意,最終倒閉。因此買家利用賣家的弱點(diǎn),可以索要折扣乃至現(xiàn)金等,這就是「霸凌買家」的由來。

引出問題

在關(guān)注各種案件的同時(shí),我們不得不思考:當(dāng)我們面臨即將到來的惡行時(shí),我們是否能夠提前防范惡性事件的發(fā)生?越是思考,越是讓人不寒而栗——比起生活上的孤零零,更可怕的是信息的貧瘠與環(huán)境的復(fù)雜。

父母親的一句「注意安全」遇上了「簽訂租約」、「錯(cuò)過公交」、「遲到誤點(diǎn)」、「校內(nèi)路邊」、「黑色轎車」、「白人男子」、「邀請(qǐng)上車」等陌生環(huán)境下的復(fù)雜情景,都顯得蒼白無力。受害人的判斷力迅速被「準(zhǔn)時(shí)準(zhǔn)點(diǎn)」、「誠(chéng)實(shí)守信」、「文明發(fā)達(dá)」、「樂于助人」沖垮。如果這些狀況發(fā)生在她的家鄉(xiāng)福建省南平市,想必她會(huì)冷靜很多:太多的事故、故事以及對(duì)周遭的了解讓她擁有足夠多的信息去面對(duì)復(fù)雜環(huán)境。試想,如果瑩穎曾看過伊利諾伊大學(xué)校園犯罪地圖、聽過一些危險(xiǎn)事件的報(bào)道,在內(nèi)心里構(gòu)建起一座防范惡行的「防火墻」,她也許會(huì)在「簽約誤點(diǎn)」的情況下對(duì)「上陌生人的黑色轎車」這一選擇要多加斟酌,從而避免這一悲劇的發(fā)生。一句簡(jiǎn)單的「注意安全」,信息量真的是太少了。

 

 

圖一:來自 CampusCrime.net:性犯罪、搶劫等惡性事件的校園分布

雖然政府與各方平臺(tái)已經(jīng)非常努力地給人民與用戶提供最優(yōu)質(zhì)、最安全的服務(wù),他們卻很難提前對(duì)惡行做出有效的防范。因?yàn)閷⒑萌苏`判為壞人的代價(jià)是巨大的。試想,當(dāng)重要郵件被誤扔進(jìn)了垃圾箱,當(dāng)一批正常的淘寶用戶被封號(hào),當(dāng)警方誤逮捕「可疑人員」,這些都必會(huì)導(dǎo)致服務(wù)劣質(zhì)化、抱怨四起、平臺(tái)收益受損、責(zé)任難以承擔(dān)等諸多負(fù)面影響。這就是為什么政府與平臺(tái)雖坐擁計(jì)算與大數(shù)據(jù)資源,卻顯得反應(yīng)遲鈍、畏首畏尾。不過在責(zé)難平臺(tái)的同時(shí),用戶自身也忽略了安全意識(shí)的建立,忘記了自己才是最有執(zhí)行力去說「不」的人。

我們的想法

當(dāng)我們觀察到平臺(tái)與用戶之間存在著這條很長(zhǎng)很深的信息鴻溝時(shí),圣母大學(xué)計(jì)算機(jī)系數(shù)據(jù)決策實(shí)驗(yàn)室(DM2 Lab, University of Notre Dame)嘗試使用一種新的思路去彌補(bǔ)這一鴻溝。為了統(tǒng)一稱謂,我們稱發(fā)出行為的人為「主動(dòng)方」,包括搭訕者、粉絲、司機(jī)等;接受行為的人為「被動(dòng)方」,包括被搭訕者、被關(guān)注者、乘客等,其中「主動(dòng)方」存在產(chǎn)生惡性行為的可能。傳統(tǒng)的惡行檢測(cè)算法(suspicious behavior detection)往往以「主動(dòng)方是否為攻擊者」的標(biāo)簽作為優(yōu)化的變量,從而使得平臺(tái)可以對(duì)預(yù)測(cè)為正例者進(jìn)行人工調(diào)查、再做出決策,調(diào)查過程費(fèi)時(shí)費(fèi)力。DM2 提出,讓「被動(dòng)方」根據(jù)對(duì)「主動(dòng)方」的特征或者行為歷史的觀察形成防范意識(shí)、選擇防御等級(jí),例如女性乘客可以根據(jù)司機(jī)年齡性別、駕齡、過往評(píng)分和評(píng)價(jià)等信息進(jìn)行篩選。這里就存在一個(gè)妥協(xié)的問題:防御等級(jí)過高,則得到服務(wù)的范圍和及時(shí)性會(huì)降低;防御等級(jí)過低,則安全又難以得到保證。用戶個(gè)體是很難選擇合理等級(jí)的,而平臺(tái)卻擁有海量數(shù)據(jù)和智能算法,可以為用戶推薦合適的防御等級(jí)并估計(jì)選取后的結(jié)果,讓用戶自行選擇。這樣用戶擁有安全意識(shí)、平臺(tái)也可以「推卸」一部分責(zé)任,信息鴻溝得以彌補(bǔ),惡意行為的防范變得可操作、可執(zhí)行。

事實(shí)上,由用戶個(gè)體來防范惡行的思路并不是第一次出現(xiàn),如淘寶就有插件可以用來屏蔽差評(píng)師(好評(píng)率低于一定百分比的買家)。

 

 

圖二:差評(píng)師攔截插件

然而,這看似安全的作法,卻也有不小的負(fù)面影響。當(dāng)賣家「防御等級(jí)」過高時(shí),很多誠(chéng)實(shí)卻打過低分的買家無法購(gòu)買商品,導(dǎo)致賣家損失訂單。如下圖中的例子:

 

 

圖三:好評(píng)率為 85% 的誠(chéng)實(shí)買家無法購(gòu)買此家店的商品

DM2 所提出的 Actionable Objective Optimization (AOO) 算法將被動(dòng)方的防御等級(jí)作為優(yōu)化變量,將整體的安全系數(shù)和服務(wù)質(zhì)量作為優(yōu)化目標(biāo),在最常見的二部圖 (bipartite graph) 形式的行為數(shù)據(jù)上,取得了很好的效果。該算法已被 IEEE BigData 2018 (http://cci.drexel.edu/bigdata/bigdata2018/) 接收為長(zhǎng)文。第一作者為圣母大學(xué)一年級(jí)博士生趙通,指導(dǎo)老師是助理教授蔣朦。

方法論

很多關(guān)于惡性防范算法的文獻(xiàn)都發(fā)現(xiàn),在用二部圖表示的行為數(shù)據(jù)上,異常密集的二部子圖(dense bipartite core)十分可疑。當(dāng)我們用矩陣 A 來表示這個(gè)二部圖時(shí),原圖中密集的子圖就變成了矩陣 A 之中密集的子矩陣,F(xiàn)有的傳統(tǒng)方法大多是通過各種方式最終給每一個(gè)主動(dòng)方打上一個(gè)可疑程度的分?jǐn)?shù),這些分?jǐn)?shù)放在一起就是一個(gè)長(zhǎng)度為主動(dòng)方總數(shù)的向量 p。然后,再去優(yōu)化那些較可疑的主動(dòng)方所形成的子矩陣

 

 

的密度 J ,所以目標(biāo)方程可以表達(dá)為:

 

 

與傳統(tǒng)地去優(yōu)化主動(dòng)方可疑程度這一變量的方法不同,AOO 的思路在于優(yōu)化被動(dòng)方的防御等級(jí),使得最終被屏蔽掉的行為成為一個(gè)密度遠(yuǎn)大于正常數(shù)據(jù)的子矩陣。AOO 要去給每個(gè)被動(dòng)方一個(gè)針對(duì)主動(dòng)方的某個(gè)特性的防御等級(jí)或是門檻,它們放在一起則是一個(gè)長(zhǎng)度為被動(dòng)方總數(shù)的向量 v。當(dāng)主動(dòng)方 i 的特性不能滿足被動(dòng)方 j 的門檻時(shí),j 便可以屏蔽掉與 i 的這次行為。那么優(yōu)化這個(gè)被屏蔽掉的行文所形成的子矩陣的目標(biāo)方程就是:

 

 

這兩個(gè)公式看似相似,實(shí)則大不相同。因?yàn)樗麄兺耆珡闹鲃?dòng)方和被動(dòng)方兩個(gè)角度切入了這個(gè)研究問題。并且實(shí)際上只有被動(dòng)方才是可以提前防范惡意行為的執(zhí)行者。

在網(wǎng)購(gòu)平臺(tái)中,主動(dòng)方(買家)的特征可以為這個(gè)買家的歷史平均評(píng)分。被動(dòng)方(賣家)的防御等級(jí)自然如同上文中提到的淘寶插件,是一個(gè)可以在此店購(gòu)買的商品的買家平均評(píng)分門檻。如此以來,當(dāng)買家的歷史平均評(píng)分低于賣家的門檻時(shí),這個(gè)買家就無法在這家店購(gòu)物。

當(dāng)我們給定一個(gè)數(shù)據(jù)集后,通過給每個(gè)賣家生成一個(gè)門檻而生成一個(gè)長(zhǎng)度為賣家數(shù)量的相當(dāng) v 之后,我們便可以利用 v 和 A 來計(jì)算出一個(gè) 0/1 矩陣 B。對(duì)于 B 中的每一個(gè)值

 

 

,若賣家 j 會(huì)屏蔽掉與買家 ‘i 的交易,

 

 

的值就是 1,如不會(huì)屏蔽則為 0。當(dāng)然,只有本來就有交易的買家與賣家才會(huì)被考慮,所以我們用矩陣 I 來表示交易存在與否,即如果賣家 j 與買家 i 之間本來就沒有交易,

 

 

自然是 0,反之則為 1。

 

 

圖四:簡(jiǎn)單的評(píng)分?jǐn)?shù)據(jù)樣例演示矩陣 A 與 B

如果用數(shù)學(xué)公式來表達(dá)的話。我們首先可以方便地求得表示每個(gè)買家歷史平均打分的向量 u:(m 為買家的數(shù)量,n 為賣家的數(shù)量)

 

 

然后我們便可求得矩陣 B:

 

 

接下來,我們只需要找出矩陣 B 中,被屏蔽了一定次數(shù)()的買家以及屏蔽了一定數(shù)量()買家的賣家。我們通過兩個(gè) 0/1 向量

 

來指示相應(yīng)的買家和賣家是否為霸凌者與被霸凌者:

 

 

這些買家與賣家形成一個(gè)子矩陣,我們的目標(biāo)是最大化這個(gè)子矩陣的密度。在求它的密度之前我們首先需要求出這個(gè)子矩陣的大小(長(zhǎng)

 

)與他的內(nèi)容之和(e):

 

 

所以我們的目標(biāo)方程可以表示為:

 

 

通過對(duì)帶有矩陣變量的函數(shù)求偏導(dǎo),可以求得該目標(biāo)方程關(guān)于 v 的一階導(dǎo)數(shù)。由于我們的目標(biāo)方程較為復(fù)雜,我們首先對(duì)其進(jìn)行簡(jiǎn)單的分解:

 

 

這樣我們只需要求出這個(gè)式子中的三個(gè)重要的偏導(dǎo)便可得出最終目標(biāo)方程的導(dǎo)數(shù)。這三個(gè)偏導(dǎo)為:

 

 

(其中為 sigmoid 方程,為 sigmoid 方程的參數(shù),具體推導(dǎo)過程請(qǐng)參照原論文。)

有了目標(biāo)方程關(guān)于 v 的導(dǎo)數(shù)后,我們只需通過梯度下降法便可優(yōu)化出一個(gè)優(yōu)秀的向量 v,而其中所包含的正是每個(gè)賣家所需要設(shè)置的門檻。通過利用整個(gè)平臺(tái)的大數(shù)據(jù)所優(yōu)化出的每個(gè)賣家的門檻,自然會(huì)比賣家自己憑借少量經(jīng)驗(yàn)所設(shè)置的要有效得多,而且不會(huì)「誤傷」太多誠(chéng)實(shí)買家從而更多地保留了銷售額。

實(shí)驗(yàn)分析

在實(shí)驗(yàn)中,這篇論文同時(shí)用了人造數(shù)據(jù)以及真實(shí)數(shù)據(jù)來佐證其效果。文中的人造數(shù)據(jù)設(shè)定十份復(fù)雜以求盡量涵蓋多種現(xiàn)實(shí)中可能出現(xiàn)的情況。在人造數(shù)據(jù)中,本文所提出的 AOO 與多個(gè)最為流行的異常行為檢測(cè)算法和欺詐行為檢測(cè)算法做了對(duì)比,并取得了相同或更優(yōu)秀的結(jié)果。

 

 

圖五:當(dāng)有一組或多組霸凌買家時(shí),方法在霸凌買家做出不同數(shù)量的差評(píng)時(shí)的效果。與流行的幾個(gè)異常行為檢測(cè)算法(KDD'14, KDD'16)作比較,AOO 的效果幾近完美。

在真實(shí)數(shù)據(jù)的實(shí)驗(yàn)中,由于并沒有任何平臺(tái)公開過帶有是否為霸凌買家的標(biāo)簽的數(shù)據(jù),這篇論文采用了美國(guó)亞馬遜(Amazon.com)的商品評(píng)論數(shù)據(jù),并對(duì) AOO 所檢測(cè)出的疑似惡意產(chǎn)品評(píng)論與其他的買家所做出的產(chǎn)品評(píng)論做了對(duì)比。結(jié)果十分有趣:

 

 

圖六:美國(guó)亞馬遜商品評(píng)論詞云

在圖六中,圖六(a)所顯示的是整個(gè)數(shù)據(jù)集中所有商品評(píng)論的用詞頻率的詞云,從中可以看出整體數(shù)據(jù)集是傾向于好評(píng)的,用戶也有用了很多非常正面的詞匯比如:good, love, like, great 等。圖六(b)所顯示的是 AOO 所檢測(cè)出的可疑差評(píng)的詞云,圖六(c)所顯示的是 AOO 認(rèn)為并不可疑的評(píng)論中的差評(píng)的詞云。從圖中可以看出,在同樣都是差評(píng),同樣都出現(xiàn)了高頻率的 bad, boring 等負(fù)面詞匯的情況下:圖六(c)中的詞匯更為溫和,如 disappointing, problem, unfortunately;而圖六(b)中的詞匯卻很暴戾甚至帶有侮辱性,如 terrible, stupid, horrible, hell。雖然數(shù)據(jù)本身并無官方標(biāo)簽來驗(yàn)證 AOO 所得出的結(jié)果是否正確,但是數(shù)據(jù)中的評(píng)論詞匯說明了這些用戶帶有更多的惡意。

小結(jié)

在本文中,我們簡(jiǎn)單地介紹了 BigData2018 這篇防范惡意行為的論文。這篇論文新穎地提出了從用戶、被害者的角度去提前防范惡意行為的思路。文中的 AOO 模型雖然已經(jīng)在評(píng)分的數(shù)據(jù)中取得了不錯(cuò)的效果,但是要想讓人們?cè)诙喾N復(fù)雜的生活環(huán)境中去防范各種各樣的惡意行為,還需學(xué)者們對(duì)這一領(lǐng)域進(jìn)行更加深入的研究。相信不久之后會(huì)有越來越多的從用戶的角度關(guān)注問題的相關(guān)文章出現(xiàn),更多以人為本的研究課題被提出。讓我們拭目以待!

標(biāo)簽: 安全 大數(shù)據(jù) 防火墻 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:AlphaZero 榮登《科學(xué)》雜志封面

下一篇:2019泰晤士全球高校計(jì)算機(jī)排名:牛津超越斯坦福位列第一,清華20