中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

基于深度學習的推薦系統(tǒng)效果遭質(zhì)疑,它真的有帶來實質(zhì)性進展嗎?

2019-08-01    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

深度學習已經(jīng)成為推薦系統(tǒng)領域的首選方法,但與此同時,已有一些論文指出了目前應用機器學習的研究中存在的問題,例如新模型結(jié)果的可復現(xiàn)性,或?qū)Ρ葘嶒炛谢的選擇。這篇論文發(fā)表在推薦系統(tǒng)頂級會議 ACM RecSys 2019 上,作者對過去幾年在頂級會議上發(fā)表的 18 種 top-n 推薦任務的算法進行了系統(tǒng)分析。

作者發(fā)現(xiàn),這些算法中只有 7 種算法可以合理復現(xiàn)算法結(jié)果,而其中 6 種方法都被經(jīng)典的啟發(fā)式算法所超越,例如基于最近鄰或基于圖的方法。作者通過這篇論文揭示了當前機器學習領域的一些潛在問題,并呼吁大家改進該領域的科學實踐。

 

 

1 引言

在短短幾年內(nèi),深度學習技術(shù)在推薦系統(tǒng)算法研究中占據(jù)了主導地位。隨著人們對機器學習的興趣普遍增加,發(fā)表論文數(shù)量越來越多,以及深度學習在視覺或語言處理等其他領域的成功,人們可以預見,這些工作也會為推薦系統(tǒng)領域帶來實質(zhì)性的進展。然而,在機器學習的其他應用領域中,所取得的進展并不總是如預期的那樣好。

在推薦系統(tǒng)領域,即使是最新的推薦方法,在大多數(shù)情況下也不能超越經(jīng)典的方法(例如基于近鄰的方法)。這些關于在應用機器學習中取得的真正進展的問題并不是最新提出的,也與基于深度學習的研究無關。早在 2009 年,研究人員通過對 ad-hoc 檢索任務的算法分析得出結(jié)論:盡管該領域內(nèi)發(fā)表了許多論文,但這些論文中提到的改進并沒有“累積”。

這種現(xiàn)象的出現(xiàn)有不同因素,包括(i)基線方法較弱;(ii)用較差的方法作為新的基線;以及(iii)比較或復現(xiàn)其他論文結(jié)果具有困難性。第一個問題在于方法對比時基線的選擇。有時對于給定的任務和數(shù)據(jù)集,選擇的基線太弱,或基線參數(shù)沒有得到適當?shù)恼{(diào)整。有時基線是從新提出的算法簇中選擇的,例如,一個新的深度學習算法只與深度學習基線進行比較。這種方法強制傳播了弱基線。此外,隨著論文的不斷發(fā)表,越來越難跟上最先進基線的發(fā)展。

除了基線的問題外,另一個挑戰(zhàn)是研究人員使用各種各樣的數(shù)據(jù)集、評估方法、性能度量和數(shù)據(jù)預處理步驟,因此很難確定哪種方法在不同的應用場景中是最好的。當研究人員不公開源代碼和數(shù)據(jù)時,這個問題尤其突出。雖然現(xiàn)在越來越多的研究人員會公布算法的源代碼,但這并不是通用規(guī)則,即使頂級會議或頂級期刊也沒有這樣的要求。而且即使發(fā)布了代碼,有些代碼也是不完整的,并不包括數(shù)據(jù)預處理、參數(shù)調(diào)整或評估程序。

最后,另一個問題可能普遍存在于應用機器學習的研究實踐。缺少審稿人,或?qū)φ撐淖髡叩牟划敿睿瑫碳つ承┨囟愋偷难芯。以及研究領域?qū)Τ橄缶_性度量的過度關注,或者只關心機器學習研究中“頂級期刊能發(fā)表的”內(nèi)容。

這篇論文中,作者的目標是闡明上述問題是否也存在于基于深度學習的推薦算法領域。作者主要關注以下兩個問題:

(1)可復現(xiàn)性:該領域的近期研究有多少是可復現(xiàn)的(通過合理方法)?

(2)進展:與相對簡單但經(jīng)過良好調(diào)整的基線方法相比,近期研究取得了多少實際性進展?

為了回答這些問題,作者進行了一項系統(tǒng)的研究。作者從 KDD、SIGIR、WWW 和 RecSys 這四大頂會中找到了 18 篇 top-n 推薦任務中基于深度學習的相關論文。

第一步,對于公開源代碼和實驗數(shù)據(jù)集的論文,作者嘗試復現(xiàn)論文中報告的結(jié)果。最后,僅有 7 篇論文可以復現(xiàn)結(jié)果。

第二步,作者重新執(zhí)行了原始論文中報告的實驗,但在比較中增加了額外的基線方法。出乎意料的是,研究顯示,在絕大多數(shù)被調(diào)查的方法中(7 個方法中有 6 個方法),所提出的深度學習方法均被經(jīng)典的基線方法所超越。另一個方法中,即使是非個性化的基線方法(向每個人推薦最受歡迎的項目),在某些評價指標下的表現(xiàn)也是最好的。

該論文的第一個貢獻在于評估了該領域論文的可復現(xiàn)程度,論文的第二個貢獻在于提出一個與機器學習的當前研究實踐相關的更深遠的問題。

2 研究方法

2.1 收集可復現(xiàn)論文

作者收集了 2015 年至 2018 年期間出現(xiàn)在以下四個會議中的長論文:KDD、SIGIR、WWW 和 RecSys。如果一篇論文(a)提出了一種基于深度學習的技術(shù),(b)關注 top-n 推薦任務,那么就算作一篇相關論文。經(jīng)過篩選,作者收集了 18 篇相關論文。

下一步,作者嘗試復現(xiàn)這些論文中報告的結(jié)果。作者盡可能多地依賴論文原作者自己提供的源代碼和實驗中使用的數(shù)據(jù)。理論上說,應該可以只使用論文中的技術(shù)描述來復現(xiàn)已發(fā)表的結(jié)果。但實際上算法和評估程序的實現(xiàn)包含許多微小細節(jié),可能會對實驗結(jié)果產(chǎn)生影響。因此,作者嘗試從原作者那里獲得所有相關論文的代碼和數(shù)據(jù)。如果滿足以下條件,則認為論文是可復現(xiàn)的:

源代碼可用,或者只需要少量的修改即可正常運行。

原論文中至少有一個數(shù)據(jù)集可用。另一個要求是,原論文中使用的訓練 - 測試劃分方法是公開的,或者可以根據(jù)文中的信息重構(gòu)。

否則,則認為論文是不可復現(xiàn)的。根據(jù)該標準,可復現(xiàn)的論文列表如表 1 所示:

 

 

總的來說,只有大約三分之一的論文可復現(xiàn)。

2.2 評價方法

測量方法

在這項工作中,作者通過分解原始代碼來復現(xiàn)論文,以應用與原論文中相同的評估過程。分解的方式是將訓練、超參數(shù)優(yōu)化和預測的代碼與評估代碼分離。并且將評估代碼也用于基線方法。

基線

作者在實驗中考慮了以下基線方法:

TopPopular:一種非個性化的方法,向每個人推薦最流行的項目。

ItemKNN:基于 k 近鄰(kNN)和 item-item 相似度的傳統(tǒng)協(xié)同過濾方法。

UserKNN:一種基于鄰域的協(xié)同用戶相似性方法。

ItemKNN-CBF:一種基于鄰域內(nèi)容過濾(CBF)的方法,通過使用項目內(nèi)容特征(屬性)計算項目相似性。

ItemKNN-CFCBF:基于項目相似性的混合 CF+CFB 算法。

P3α:一種簡單的基于圖的算法,實現(xiàn)了用戶和項目之間的隨機行走。

RP3β:P3α的另一個版本。

3 DNN 方法與基線對比實驗

3.1 協(xié)作存儲網(wǎng)絡(Collaborative Memory Networks,CMN)

CMN 方法在 SIGIR18 會議上提出,將記憶網(wǎng)絡和神經(jīng)注意力機制與隱因素和鄰域模型結(jié)合。CMN 作者將該方法與不同的矩陣分解和神經(jīng)推薦方法,以及 ItemKNN 算法進行了比較。采用了三個數(shù)據(jù)集用于評估:Epinions、CiteULike-a 和 Pinterest。原論文給出了最優(yōu)參數(shù),但沒有提供如何調(diào)整基線實驗的信息。點擊率和 NDCG 是原論文采用的評價指標。原論文報告的結(jié)果表明,CMN 在所有的度量標準上都優(yōu)于其他的基線方法。

CMN 所有數(shù)據(jù)集上的實驗都是可復現(xiàn)的。對于簡單基線進行的額外實驗,作者針對點擊率度量優(yōu)化了基線參數(shù)。在三個數(shù)據(jù)集上的實驗結(jié)果如表 2 所示。

 

 

結(jié)果表明,在優(yōu)化基線方法之后,CMN 在任何數(shù)據(jù)集上都不能取得最好的表現(xiàn)。對于 CiteULike-a 和 Pinterest 數(shù)據(jù)集,至少有兩種個性化基線方法在任何度量上都優(yōu)于 CMN 方法。基本上所有的個性化基線方法都比 CMN 效果好。對于 Epinions 數(shù)據(jù)集,出乎意料的是,原始文獻中沒有提及的 TopPopular 方法在很大程度上優(yōu)于所有其他算法。在這個數(shù)據(jù)集上,CMN 確實比基線方法要好。因此,CMN 在這個相對較小且非常稀疏的數(shù)據(jù)集上的成功,可能與數(shù)據(jù)集的特殊性或 CMN 的受歡迎度(popularity)偏置有關。分析表明,與其他數(shù)據(jù)集相比,Epinions 數(shù)據(jù)集的受歡迎程度的分布確實更加不均勻(基尼指數(shù)為 0.69,而 CiteULike 基尼指數(shù)為 0.37)。

3.2 基于元路徑上下文的推薦方法(Metapath based Context for RECommendation,MCRec)

MCRec 方法發(fā)表在 KDD18,是一個基于元路徑的模型,它利用輔助信息實現(xiàn) top-n 推薦任務。原文獻作者在三個小數(shù)據(jù)集(MovieLens100k、LastFm 和 Yelp)上對不同復雜度的各種模型,以及 MCRec 的四個變體進行了基準測試。原文獻通過創(chuàng)建 80/20 隨機訓練測試劃分,進行 10 次交叉驗證。選擇 MF 和 NeuMF 作為基線。但只有 MovieLens 數(shù)據(jù)集提供了數(shù)據(jù)劃分,原文獻沒有給出基線超參數(shù)調(diào)參的具體信息。原文獻采用的評價指標為精確度、召回率和 NDCG。但是論文中實現(xiàn)的 NDCG 方法較為奇怪,所以作者采用了標準的 NDCG 評價程序。

 

 

表 3 表明,當正確設置傳統(tǒng)的 ItemKNN 方法時,該方法在所有性能指標上都優(yōu)于 MCRec。原始論文除了使用一種不常見的 NDCG 方法外,作者還發(fā)現(xiàn)了其他潛在的方法學問題。如前所述,MF 和 NeuMF 基線的超參數(shù)沒有針對給定數(shù)據(jù)集進行優(yōu)化,而是取自原始論文。此外,通過查看提供的源代碼,可以看到作者報告的是不同 epoch 中選擇的最佳結(jié)果,這是不恰當?shù)摹?/p>

3.3 協(xié)同變分自動編碼器(Collaborative Variational Autoencoder,CVAE)

CVAE 方法發(fā)表在 KDD18,該模型以無監(jiān)督的方式從內(nèi)容數(shù)據(jù)中學習深度隱表示,并從內(nèi)容和排序中學習項目和用戶之間的隱式關系。

該方法在兩個比較小的 CitULike 數(shù)據(jù)集(135K 和 205K 次交互)上進行評估,分別測試了這兩個數(shù)據(jù)集的稀疏版本和密集版本。原文獻中的基線實驗包括三個最新的深度學習模型以及協(xié)同主題回歸(CTR)。每個方法的參數(shù)都是基于驗證集進行調(diào)整的。采用不同的列表長度(50 至 300)的召回率作為評價指標。采用隨機數(shù)據(jù)劃分,重復 5 次測量。

 

 

原文獻作者共享了代碼和數(shù)據(jù)集。通過對基線進行微調(diào),得到了表 4 所示的稠密 CiteULike-a 數(shù)據(jù)集的結(jié)果。對于最短的列表長度 50,即使大多數(shù)純 CF 基線方法在這個數(shù)據(jù)集上也優(yōu)于 CVAE 方法。在較長的列表長度下,ItemKNN-CFCBF 方法獲得了最佳結(jié)果。稀疏 CiteULike-t 數(shù)據(jù)集上也得到了類似的結(jié)果。一般來說,在列表長度為 50 時,ItemKNN-CFCBF 在所有測試配置中始終優(yōu)于 CVAE。只有在更長的列表長度(100 及以上)時,CVAE 才能在兩個數(shù)據(jù)集上超越基線方法?偟膩碚f,只有在某些配置中,并且很長且相當不常見的推薦截止閾值下 CVAE 才優(yōu)于基線。然而,這種列表長度的使用是不合理的。

3.4 協(xié)同深度學習(Collaborative Deep Learning,CDL)

上述的 CVAE 方法將 KDD15 中經(jīng)常引用的 CDL 方法作為其基線之一。CDL 是疊置去噪自動編碼器(SDAE)和協(xié)同濾波聯(lián)合學習的概率前饋模型。原文獻中的評估表明,與 CTR 方法相比,CDL 方法的表現(xiàn)較好,尤其是在稀疏數(shù)據(jù)情況下。

 

 

作者復現(xiàn)了 CDL 的研究結(jié)果,得出了表 5 中密集型 CiteULike-a 數(shù)據(jù)集的結(jié)果。不足為奇,在前一節(jié)中優(yōu)于 CVAE 的基線也優(yōu)于 CDL,而且對于短列表長度而言,純 CF 方法優(yōu)于 CDL 方法。然而,當列表長度超過 100 時,CDL 具有更高的召回率。通過對比 CVAE 和 CDL 的結(jié)果,作者發(fā)現(xiàn)新提出的 CVAE 方法確實優(yōu)于 CDL 方法,這表明 CAVE 方法的確取得了進展。然而在大多數(shù)情況下,這兩種方法的表現(xiàn)都不如簡單的基線方法。

3.5 神經(jīng)協(xié)同過濾(Neural Collaborative Filtering,NCF)

基于神經(jīng)網(wǎng)絡的協(xié)同過濾方法在 WWW17 會議上提出,通過用一種可以從數(shù)據(jù)中學習任意函數(shù)的神經(jīng)網(wǎng)絡結(jié)構(gòu)代替了內(nèi)積來推廣矩陣分解。該方法在兩個數(shù)據(jù)集(MovieLens1M 和 Pinterest)上進行了評估,分別包含 100 萬和 150 萬次交互。在評價過程中采用了“留一法”。原文獻結(jié)果表明,當使用點擊率和 NDCG 作為評價指標時,NeuMF(NCF 的變體)比現(xiàn)有的矩陣因子分解模型更為有利。

實驗結(jié)果如表 6 所示。在 Pinterest 數(shù)據(jù)集上,個性化基線方法在所有評價標準上都比 NeuMF 稍微好一些,或者表現(xiàn)一致。對于 MovieLens 數(shù)據(jù)集,NeuMF 的結(jié)果幾乎與最佳基線 RP3β相同。

 

 

由于 MovieLens 數(shù)據(jù)集被廣泛用于評估新模型,因此作者使用基本矩陣分解方法(此處稱為 pureSVD)進行了額外的實驗。優(yōu)化參數(shù)后,作者發(fā)現(xiàn) pureSVD 確實比基線方法好,而且在這個數(shù)據(jù)集上也明顯優(yōu)于 NeuMF。

3.6 光譜協(xié)同過濾(Spectral Collaborative Filtering,SpectralCF)

SpectralCF 發(fā)表在 RecSys18 上,采用光譜圖理論的概念,旨在專門解決冷啟動問題。該方法在三個公共數(shù)據(jù)集(MovieLens1m、HetRec 和 Amazon Instant Video)上進行評估,并采用了多種基線方法,包括最近的神經(jīng)網(wǎng)絡方法和因子分解和排序技術(shù)。實驗采用 80/20 訓練 - 測試隨機劃分,并使用不同截止點的召回率和平均精度(MAP)作為評價指標。

對于 MovieLens 數(shù)據(jù)集,原文獻作者共享了使用的訓練和測試數(shù)據(jù)集以及代碼。對于其他數(shù)據(jù)集,數(shù)據(jù)劃分沒有公布,因此作者按照文中的描述自己創(chuàng)建了劃分方式。

對于 HetRec 和 Amazon Instant Video 數(shù)據(jù)集,所有的基線方法,包括 TopPopular 方法,在所有度量指標上都優(yōu)于 SpectralCF。然而,在原文獻提供的 MovieLens 數(shù)據(jù)劃分上運行代碼時,SpectralCF 比所有的基線都要好很多。

 

 

因此,作者分析了 MovieLens 數(shù)據(jù)集公布的訓練測試劃分,發(fā)現(xiàn)測試集中項目的受歡迎程度的分布與隨機抽樣帶來的分布非常不同。然后,作者使用自己的數(shù)據(jù)劃分方式對 MovieLens 數(shù)據(jù)集進行分割,并且優(yōu)化了數(shù)據(jù)分割的參數(shù),以確保公平比較。實驗結(jié)果如表 7 所示。當使用原始論文中描述的數(shù)據(jù)分割時,MovieLens 數(shù)據(jù)集的結(jié)果與其他兩個數(shù)據(jù)集的實驗結(jié)果一致,即在所有配置中,SpectralCF 的性能都比基線方法差,甚至 TopPopular 的表現(xiàn)也比它好。

 

 

圖 1 顯示了數(shù)據(jù)劃分問題。藍色數(shù)據(jù)點顯示訓練集中每個項目的歸一化受歡迎度值,最流行的項目的值為 1。在隨機劃分的情況下,橙色點將非常接近相應的藍色點。然而,這里測試集中許多項目的受歡迎程度值相差很大。無論是訓練還是測試,隨機劃分的數(shù)據(jù)集的基尼指數(shù)都在 0.79 左右,而所提供的測試集的基尼指數(shù)要高得多(0.92),這意味著該分布比隨機劃分具有更高的受歡迎度偏差。

3.7 變分自動編碼器協(xié)同過濾(Variational Autoencoders for Collaborative Filtering,Mult-VAE)

Mult-VAE 是一種基于變分自動編碼器的隱反饋協(xié)同過濾方法。這項工作發(fā)表在 WWW18 上。原論文在 3 個二值化數(shù)據(jù)集上評估該方法,這些數(shù)據(jù)集包含原始電影評分或歌曲播放計數(shù)。實驗中采用的基線包括 2008 年的矩陣分解法、2011 年的線性模型和最近的神經(jīng)網(wǎng)絡方法。根據(jù)論文,所提出的方法的召回率和 NDCG 結(jié)果通常比最佳基線高出 3% 左右。

通過使用它們的代碼和數(shù)據(jù)集,作者發(fā)現(xiàn)所提出的方法確實比非常簡單的基線技術(shù)更好。其準確率比最佳基線高 10% 到 20%。Mult-VAE 是作者經(jīng)過檢查后發(fā)現(xiàn)的唯一一個更復雜的方法優(yōu)于基線技術(shù)的方法。

為了驗證 Mult-VAE 優(yōu)于復雜的非神經(jīng)模型,作者將加權(quán)矩陣因子分解方法和線性模型 SLIM 的參數(shù)針對數(shù)據(jù)集 MovieLens 和 Netflix 進行了優(yōu)化。表 8 顯示了在 Netflix 數(shù)據(jù)集上的實驗結(jié)果。

 

 

在 NDCG 評價指標方面,Mult-VAE 和 SLIM 之間的差異非常小。然而,在召回率方面,與 SLIM 相比,Mult-VAE 的改進似乎是可靠的。作者在不同的截止長度下進行了額外的評估,結(jié)果見表 9。表 9 表明,當使用 NDCG 作為優(yōu)化目標和度量指標時,SLIM 和 Mult-VAE 之間的差異在這個數(shù)據(jù)集中消失了,SLIM 有時甚至會稍好一些。對于 MovieLens 數(shù)據(jù)集,也可以觀察到類似的現(xiàn)象。因此,在這種特殊情況下,通過神經(jīng)網(wǎng)絡方法獲得的進展只是部分的,并且取決于所選擇的評價指標。

 

 

4 討論

4.1 可復現(xiàn)性和可擴展性

按理說,在應用機器學習領域建立可復現(xiàn)性要比在其他科學和計算機科學的其他子領域容易得多。當研究人員提供他們的代碼和使用的數(shù)據(jù)時,每個人都應該能夠或多或少地復現(xiàn)出相同的結(jié)果。而且如今的研究人員通常使用公共軟件或?qū)W術(shù)機構(gòu)提供的軟件,因此其他研究人員應該更容易在非常相似的條件下重復實驗。

然而,這篇論文表明,算法可復現(xiàn)性的程度實際上并不高。與過去相比,已經(jīng)有更多的人開始共享核心算法的代碼,這可能也是因為可復現(xiàn)性已成為會議論文的評價標準。但是大部分情況下,用于超參數(shù)優(yōu)化、評價、數(shù)據(jù)預處理和基線的代碼是不公開的。這使得其他人很難確認論文報告的結(jié)果。

而許多方法的計算復雜性也為復現(xiàn)實驗帶來了挑戰(zhàn)。到 2019 年,已經(jīng)是 Netflix 發(fā)布 1 億條評分數(shù)據(jù)集的 10 年之后,研究人員常用的依然是僅包含幾十萬條評分的數(shù)據(jù)集。即使對于小數(shù)據(jù)集,采用 GPU 計算,超參數(shù)優(yōu)化也需要幾天甚至幾周時間。當然,本文中討論的基于近鄰的方法也存在可擴展性問題。然而,通過適當?shù)臄?shù)據(jù)預處理和數(shù)據(jù)采樣機制,在學術(shù)和工業(yè)環(huán)境中也可以確保這些方法的可擴展性。

4.2 進展評價

最近提出的幾種神經(jīng)網(wǎng)絡方法盡管計算復雜,但是其性能卻不如在概念上或計算上更簡單的方法。因此,至少對于本文所討論的方法來說,該領域基于深度學習方法的真實進展情況尚不明確。

正如論文所分析的,這種“偽進展”的一個主要原因是基線方法的選擇和缺乏對基線方法參數(shù)的適當優(yōu)化。在大多數(shù)被研究的方法中,原始論文沒有給出足夠的基線優(yōu)化的信息。在有些論文中還發(fā)現(xiàn)了數(shù)據(jù)劃分和某些評價標準的實現(xiàn)上存在錯誤。

另一個有趣的發(fā)現(xiàn)是,最近的一些論文使用神經(jīng)協(xié)同過濾方法(NCF)作為其最先進的基線之一。然而,根據(jù)作者的分析,這種方法在部分數(shù)據(jù)集上的表現(xiàn)還不如簡單的基線方法。

另一個阻礙評估該領域進展的原因在于研究人員使用的各種數(shù)據(jù)集、評估協(xié)議、度量標準和基線實驗。例如,從數(shù)據(jù)集角度,作者發(fā)現(xiàn)了 20 多個公開數(shù)據(jù)集,以及多個 MovieLens 和 Yelp 數(shù)據(jù)集的變體,大部分數(shù)據(jù)集只在一兩篇論文中使用。并且研究人員使用了各種度量(精度、召回率、平均精度、NDCG、MRR 等)以及各種評估程序(例如,隨機保持 80/20、留一法、每個正項 100 條負項、或 50 項負項)。然而,在大多數(shù)情況下,這些選擇是不合理的。實際上,度量的選擇應該取決于應用的環(huán)境。例如,在某些應用中,推薦項目的前幾項至少需要有一個相關項,這時應該使用基于排序的度量,如 MRR。在其他領域,當目標是向用戶顯示盡可能多的相關項時,高召回率可能更為重要。除了度量標準的選擇不明確之外,這些論文通常也沒有解釋度量的截止長度,從 top-3、top-5,甚至到幾百個元素。

然而,這些現(xiàn)象與基于深度學習的推薦方法無關,在神經(jīng)網(wǎng)絡時代之前也存在這種現(xiàn)象。但是機器學習研究人員對精確度量和尋找“最佳”模型的強烈關注推動了這種發(fā)展。在目前的研究實踐中,通常認為如果一種新的方法可以在一至兩個標準度量上,在一至兩個公共數(shù)據(jù)集上優(yōu)于現(xiàn)有的一組算法,就已經(jīng)足夠了。然而,使用哪種評估度量和哪些數(shù)據(jù)集卻是任意選擇的。

這些現(xiàn)象指出了根本問題,即該領域的研究不受任何假設的指導,也不以解決給定問題為目標。追求更高的準確度成為了該領域研究的主導方向,但是大家甚至還不清楚準確度的輕微提升是否能夠為推薦系統(tǒng)的消費者或提供者帶來一定的價值。事實上,許多研究工作表明,更高的準確度并不一定能轉(zhuǎn)化為更好的推薦結(jié)果。

5 總結(jié)

在這項工作中,作者對各大頂會的最新基于神經(jīng)網(wǎng)絡的推薦算法進行了系統(tǒng)分析。分析表明,已發(fā)表論文的可復現(xiàn)程度仍然不高。此外,實驗證明,這些基于深度學習的方法均被經(jīng)典的啟發(fā)式算法所超越。作者認為,基于神經(jīng)網(wǎng)絡的推薦算法為該領域所帶來的實際進展并不明確,作者希望該領域的算法貢獻評估能出現(xiàn)更嚴格和更好的研究實踐。

作者:Maurizio Ferrari Dacrema

譯者:馬卓奇

查看論文原文:https://arxiv.org/abs/1907.06902

標簽: 深度學習 推薦系統(tǒng)

版權(quán)申明:本站文章部分自網(wǎng)絡,如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:谷歌高級研究員Nature發(fā)文:避開機器學習三大「坑」

下一篇:建設企業(yè)的數(shù)據(jù)化引擎,網(wǎng)易嚴選數(shù)據(jù)中臺的經(jīng)驗和方法論