中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

解讀歐盟 GDPR,這將是企業(yè)級數(shù)據(jù)科學不容忽視的合規(guī)風險

2018-06-28    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用
歐盟于 2018 年 5 于 25 日出臺數(shù)據(jù)保護條例 GDPR,隨之在數(shù)據(jù)科學領(lǐng)域引起了廣泛的討論,這是因為嚴格的數(shù)據(jù)條例,將對數(shù)據(jù)科學項目,尤其是機器學習領(lǐng)域產(chǎn)生巨大的影響。

目前,隨著技術(shù)的進步,機器學習也在飛速發(fā)展,全球?qū)@一領(lǐng)域的投資也日益增加,機器學習正在迅速成為企業(yè)數(shù)據(jù)科學的趨勢。而隨著嚴格的 GDPR 問世,對機器學習究竟會產(chǎn)生哪些影響?如何在 GDPR 的限制下繼續(xù)數(shù)據(jù)科學及其研發(fā)項目?

剛剛頒布的 GDPR 還沒有全面生效,大家對于如何執(zhí)行這一法規(guī)的認識還是模糊的,仍在不斷摸索中,但GDPR 帶來的關(guān)鍵問題和挑戰(zhàn)已逐漸顯現(xiàn)。數(shù)據(jù)管理平臺 Immutable 的首席隱私官與法律工程師 Andrew Burt 撰寫了一篇文章,一一解釋了自己公司受到的關(guān)于對機器學習影響的三大問題。雷鋒網(wǎng) AI 科技評論把相關(guān)內(nèi)容編譯如下。

問題1:GDPR 是否會禁止機器學習?

當然不是。即使是 GDPR 生效后,在歐盟,機器學習也不會被禁止。但是,不可避免地,此后機器學習的應用都會涉及沉重的合規(guī)問題。

根據(jù)法規(guī)的要求,GDPR 將全面禁止沒有人為干預、并會對數(shù)據(jù)主體產(chǎn)生重大影響的自動化決策。值得注意的是,GDPR 適用于所有使用了歐盟數(shù)據(jù)的情況,這些數(shù)據(jù)可能都能夠辨識出一個數(shù)據(jù)主體,而對于使用了大量數(shù)據(jù)的數(shù)據(jù)科學計劃,這意味著 GDPR 將適用于其所有的活動。

GDPR 對于「自動化決策」的定義是指,在沒有人為直接參與的情況下自動作出決策的模型。這包括了對數(shù)據(jù)主體的自動「用戶畫像分析」,例如將用戶分類為「潛在客戶」或「40-50 歲男性」,以確定貸款申請人是否有資格獲得貸款。

因此,鑒別機器學習模型是否是屬于「自動化決策」,首先是看模型是否是在沒有人為干預的情況下自動部署的,如果是,那么這樣的模型默認為是被禁止的。而事實上,大量的機器學習模型都是這種情況。盡管許多律師和數(shù)據(jù)科學家反對過這一點,但參與起草和解釋 GDPR 的歐盟官方——第 29 工作組對于這一條解釋就是如此。

GDPR 禁止機器學習了嗎?,「禁止」這一詞很具誤導性。禁止自動化決策是可以存在特例的,使用「禁止」這一詞太過強硬了。一旦 GDPR 生效,數(shù)據(jù)科學家應該期望的是,機器學習的大部分應用仍還可以實現(xiàn),只是增加了他們不能忽視的合規(guī)負擔。

下面會詳述「禁止」以外的特例。

GDPR 法規(guī)明確了使用自主決策合法的三個領(lǐng)域:
在簽訂了合同的情況下,數(shù)據(jù)處理是必要的;
其他法律另行授權(quán)的情況;
數(shù)據(jù)主體明確同意的情況。

事實上,最后一條是較為符合實際的,解決這一禁令的常用方法,就是數(shù)據(jù)主體明確允許他們的數(shù)據(jù)可以被模型使用。但是,讓數(shù)據(jù)主體同意并不容易。數(shù)據(jù)主體可以同意許多不同類型的數(shù)據(jù)處理,并且他們也可以在任何時候撤銷同意,這意味著在數(shù)據(jù)的使用上,需要精細化地管理數(shù)據(jù)主體對于數(shù)據(jù)使用的同意,允許數(shù)據(jù)主體選擇不同類型的同意,動態(tài)(允許數(shù)據(jù)主體撤銷同意)以及要提供足夠的用戶友好性,即讓數(shù)據(jù)主體有能力理解他們的數(shù)據(jù)如何被使用的 ,并且給予用戶控制數(shù)據(jù)使用的權(quán)力。

GDPR 并沒有完全禁止使用機器學習模型,但它會使得很多機器學習的模型及其輸入數(shù)據(jù)的部署和管理變得越來越困難。

問題2: 機器學習是否需要「可解釋性」?

關(guān)于 GDPR 對機器學習的影響,我最常聽到的問題之一,就是機器學習是否需要「可解釋性」。去年作者特意寫了一篇文章討論這個問題。

這個問題源于 GDPR 本身的條例有些模糊不清。

「可解釋性」這一點帶來的風險是非常高的,可能會對企業(yè)數(shù)據(jù)科學產(chǎn)生巨大的影響。機器學習模型的復雜結(jié)構(gòu)賦予了其神奇的預測能力,想要把其內(nèi)在構(gòu)成解釋清楚是很困難的。

我們從 GDPR 條例的文本開始說。

在條例的第 13-15 條中,GDPR 一再聲明數(shù)據(jù)主體有權(quán)了解關(guān)于數(shù)據(jù)使用的「有意義的信息」和自動化決策帶來的「重要和可預見的后果」。然后,第 22 條中,GDPR 規(guī)定,只有在具備了上述影響類型的情況下,用戶才可以對決策提出反對。最后,第 71 條序言是該條例中包含的不具約束力一部分,它指出數(shù)據(jù)主體可以要求自動化決策給出合理的解釋,并且數(shù)據(jù)主體能夠質(zhì)疑這些決策?偠灾,這三項規(guī)定給數(shù)據(jù)的使用帶來了更復雜的場景。

由于文本的模糊不清,歐盟監(jiān)管機構(gòu)可能以最嚴格的方式去解釋這些規(guī)定,例如要求機器學習的模型對內(nèi)部結(jié)構(gòu)做出完整解釋,但這樣的做法似乎是不合理的。

這些文本更恰當?shù)慕忉尶赡苁,當機器學習用于沒有人為干預下做決策時,以及當這些決策對數(shù)據(jù)主體產(chǎn)生重大影響時,數(shù)據(jù)主體有權(quán)對正在發(fā)生的事情有基本的了解。 GDPR 中的“有意義的信息”和“可預見的后果”或許可以這樣解讀。歐盟監(jiān)管機構(gòu)可能會將重點放在數(shù)據(jù)主體有權(quán)就數(shù)據(jù)使用情況作出決策上,而對于數(shù)據(jù)使用的透明度,則可能會依據(jù)于模型及對應的情況而定。

問題3:數(shù)據(jù)主體是否有權(quán)要求刪除他們的信息后重新訓練模型?

這也許是 GDPR 條例下最難回答的問題之一。換句話說,如果一個數(shù)據(jù)科學家使用某個數(shù)據(jù)主體的數(shù)據(jù)來訓練模型,然后在這個模型中融入了新數(shù)據(jù),那么此前的數(shù)據(jù)主體對于之前用他們的數(shù)據(jù)訓練出來的模型是否還有一定的權(quán)力?

據(jù)我所知,答案將是否定的,至少在實踐中是這樣的,只有非常少的特例。為了解釋更清楚,我先從這些特例說起。

在 GDPR 下,所有數(shù)據(jù)的使用都需要在法律的允許下進行,GDPR 第 6 條規(guī)定了六項對應的法律依據(jù)。其中有兩個最重要的「合法權(quán)益」的依據(jù),并且數(shù)據(jù)主體明確同意使用該數(shù)據(jù)。這種情況下,當處理數(shù)據(jù)是依據(jù)于數(shù)據(jù)主體的同意時,數(shù)據(jù)主體將仍保留對該數(shù)據(jù)的重要控制權(quán),這意味著他們可以隨時撤回同意,處理該數(shù)據(jù)的合法性將不再存在。

因此,如果組織從數(shù)據(jù)主體收集數(shù)據(jù),數(shù)據(jù)主體同意將他們的數(shù)據(jù)用于訓練特定的模型,但隨后又撤回同意,何時數(shù)據(jù)主體可以強制模型重新訓練新數(shù)據(jù)?

答案是只有當該模型繼續(xù)使用該數(shù)據(jù)主體的數(shù)據(jù)時才可以。

正如 29 工作組所指出的那樣,即使數(shù)據(jù)主體撤銷了同意,撤銷前所發(fā)生的所有的處理仍然是合法的。因此,如果數(shù)據(jù)被合法地用于創(chuàng)建模型或預測,那么無論這些數(shù)據(jù)的產(chǎn)出是什么,都是可以被保留的。事實上,一旦用一組訓練數(shù)據(jù)創(chuàng)建了模型,那么訓練數(shù)據(jù)的刪除和修改都不會影響到之前的模型。

但是,一些研究表明,模型可能會保留關(guān)于訓練數(shù)據(jù)的信息,即使在訓練數(shù)據(jù)被刪除之后,仍然可以通過模型找到原始數(shù)據(jù),正如研究人員 Nicolas Papernot 等人寫的一樣(模型的隱私性問題,參見這篇文章)。這意味著在某些情況下,保留訓練模型而刪除原有數(shù)據(jù),不能保證在以后原有數(shù)據(jù)不會被重現(xiàn),或者說在某些情況下,原有數(shù)據(jù)還是仍可能在使用的。

但是從模型中復原原有的訓練數(shù)據(jù)有多大可能呢?幾乎是不可能的。

目前所知,這種研究只在學術(shù)環(huán)境中進行,企業(yè)的數(shù)據(jù)科學與學術(shù)環(huán)境相差甚遠。正是由于這個原因,作者不認為模型會因為受到數(shù)據(jù)主體的要求而重新訓練。雖然這在理論上是可能的,但已經(jīng)是非常邊緣的特例了,只有在特定情況下特例發(fā)生之后,監(jiān)管機構(gòu)和數(shù)據(jù)科學家才需要去處理。

盡管如此,所有這些問題都存在大量的細微差別,未來這些細微差別一定會出現(xiàn)。GDPR 有 99 條正文和173 條引言,注定是非常長且復雜的法規(guī),并且隨著時間的推移變得更加復雜。

但是,至少有一點是明確的:要感謝 GDPR,在未來的大規(guī)模數(shù)據(jù)科學計劃中,律師和專門負責處理隱私的工程師將會成為數(shù)據(jù)科學計劃的核心成員。

via www.oreilly.com

標簽:

版權(quán)申明:本站文章部分自網(wǎng)絡,如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:30個免費資源:涵蓋機器學習、深度學習、NLP及自動駕駛

下一篇:什么是大數(shù)據(jù)?如何成為大數(shù)據(jù)的技術(shù)大牛?