中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

谷歌開源 TF-Ranking:一個可擴展的排名學(xué)習(xí) TensorFlow 庫

2018-12-08    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用

 

排名是指對一個列表項進行排序的過程,以便最大化列表的效用,適用于各種領(lǐng)域,從搜索引擎和推薦系統(tǒng)到機器翻譯、對話系統(tǒng)甚至是計算生物學(xué)。在這些應(yīng)用程序中,研究人員經(jīng)常使用一系列叫作排名學(xué)習(xí)(learning-to-rank)的監(jiān)督機器學(xué)習(xí)技術(shù)。在很多情況下,這些排名學(xué)習(xí)技術(shù)被應(yīng)用在非常大型的數(shù)據(jù)集上——TensorFlow 的可擴展性在這方面可能會是一個優(yōu)勢。但是,目前還不支持直接在 TensorFlow 中應(yīng)用排名學(xué)習(xí)技術(shù)。據(jù)我們所知,還沒有其他開源庫專門針對排名學(xué)習(xí)技術(shù)的大規(guī)模應(yīng)用。

今天,我們很高興地宣布TF-Ranking,一個用于排名學(xué)習(xí)的可擴展 TensorFlow 庫。正如我們在最近發(fā)表的論文中所描述的那樣,TF-Ranking 提供了一個統(tǒng)一的框架,包括了一套最先進的排名學(xué)習(xí)算法,并支持 Pairwise 和 Listwise 損失函數(shù)、多項目評分、排名度量優(yōu)化和無偏見排名學(xué)習(xí)。

TF-Ranking 速度很快,而且易于使用,并可用它創(chuàng)建高質(zhì)量的排名模型。統(tǒng)一的框架讓 ML 研究人員、ML 從業(yè)者和 ML 愛好者能夠基于單個庫評估和選擇一系列不同的排名模型。此外,我們堅信,一個好的開源庫的關(guān)鍵之處不僅在于提供合理的默認(rèn)設(shè)置,它還應(yīng)該讓用戶能夠開發(fā)自己的自定義模型。因此,我們提供了靈活的 API,用戶可以定義和插入自己的自定義損失函數(shù)、評分函數(shù)和度量指標(biāo)。

現(xiàn)有的算法和度量指標(biāo)支持

排名學(xué)習(xí)算法的目標(biāo)是最小化在項目列表上定義的損失函數(shù),優(yōu)化給定應(yīng)用程序的列表排序效用。TF-Ranking 支持標(biāo)準(zhǔn)的 Pointwise、Pairwise 和 Listwise 損失函數(shù)。使用 TF-Ranking 庫的 ML 研究人員能夠復(fù)制和擴展以前發(fā)布的基線,ML 專業(yè)人員可以為他們的應(yīng)用做出最明智的選擇。此外,TF-Ranking 可以通過嵌入和擴展到數(shù)億個訓(xùn)練實例來處理稀疏特征(如原始文本)。因此,任何對構(gòu)建真實世界數(shù)據(jù)密集型排名系統(tǒng)(如網(wǎng)絡(luò)搜索或新聞推薦)感興趣的人都可以使用 TF-Ranking 作為強大、可擴展的解決方案。

經(jīng)驗評估是機器學(xué)習(xí)或信息檢索研究的重要組成部分。為了確保與先前工作的兼容性,我們支持很多常用的排名指標(biāo),包括平均倒數(shù)排名(MRR)和標(biāo)準(zhǔn)化折扣累積收益(NDCG)。我們還可以在 TensorBoard(開源的 TensorFlow 可視化儀表盤)上顯示這些指標(biāo)(在訓(xùn)練期間)。

 

 

在 TensorBoard 中顯示的訓(xùn)練步驟(X 軸)的 NDCG 度量指標(biāo)(Y 軸)的示例。它顯示了訓(xùn)練期間指標(biāo)的總體進度?梢灾苯釉趦x表盤上比較不同的方法?梢愿鶕(jù)指標(biāo)選擇最佳模型。

多項評分

TF-Ranking 支持一種新穎的評分機制,可以聯(lián)合對多個項目(例如網(wǎng)頁)進行評分,這是對傳統(tǒng)評分機制的一個擴展,在傳統(tǒng)的評分機制中,只對單個項目進行獨立評分。多項目評分面臨的一個挑戰(zhàn)是難以進行推理,項目必須被分成子組進行評分。然后,累積每個項目的分?jǐn)?shù)用于排序。為了隱藏這些復(fù)雜性,TF-Ranking 提供了 List-In-List-Out(LILO)API,將這些邏輯包裝在導(dǎo)出的 TF 模型中。

 

 

TF-Ranking 庫支持多項目評分架構(gòu),是對傳統(tǒng)單項評分的擴展。

正如我們在最近的工作中所展示的那樣,在公共 LETOR 基準(zhǔn)測試中,多項目評分在性能方面與 RankNet、MART 和 LambdaMART 等最先進的學(xué)習(xí)模型相比具有相當(dāng)?shù)母偁幜Α?/p>

排名指標(biāo)優(yōu)化

排名學(xué)習(xí)的一個重要研究挑戰(zhàn)是排名指標(biāo)的直接優(yōu)化(例如前面提到的 NDCG 和 MRR)。這些指標(biāo)雖然能夠比標(biāo)準(zhǔn)分類指標(biāo)(如曲線下面積(AUC))更好地衡量排名系統(tǒng)的性能,但卻具有不連續(xù)或扁平的特點。因此,這些指標(biāo)的標(biāo)準(zhǔn)隨機梯度下降優(yōu)化是有問題的。

在最近的工作中,我們提出了一種新的方法 LambdaLoss,它提供了一種用于對度量優(yōu)化進行排序的原則概率框架。在這個框架中,可以通過期望最大化過程來設(shè)計和優(yōu)化基于度量指標(biāo)驅(qū)動的損失函數(shù)。TF-Ranking 庫集成了直接度量指標(biāo)優(yōu)化的最新成果,并提供了 LambdaLoss 實現(xiàn)。我們希望這些可以鼓勵和促進排名度量指標(biāo)優(yōu)化領(lǐng)域進一步的研究和進展。

無偏見的排名學(xué)習(xí)

之前的研究表明,對于給定的已排名項目列表,用戶更有可能與前幾個結(jié)果交互,無論它們的相關(guān)性是怎樣的。這一發(fā)現(xiàn)激發(fā)了研究人員對無偏見排名學(xué)習(xí)的興趣,并且基于訓(xùn)練實例重新加權(quán)開發(fā)出了無偏見的評估和幾種無偏見的學(xué)習(xí)算法。TF-Ranking 庫實現(xiàn)了支持無偏見評估的度量指標(biāo),并且通過原生支持重新加權(quán)(解決用戶與數(shù)據(jù)集交互的固有偏差)實現(xiàn)了無偏見學(xué)習(xí)損失函數(shù)。

TF-Ranking 入門

TF-Ranking 實現(xiàn)了 TensorFlow Estimator 接口,通過封裝訓(xùn)練、評估、預(yù)測和導(dǎo)出服務(wù)極大簡化了機器學(xué)習(xí)編程。TF-Ranking 與豐富的 TensorFlow 生態(tài)系統(tǒng)完美集成。如上所述,你可以使用 Tensorboard 可視化 NDCG 和 MRR 等排名指標(biāo),以及使用這些指標(biāo)選擇最佳模型檢查點。在你的模型準(zhǔn)備就緒之后,可以使用 TensorFlow Serving 將模型部署到生產(chǎn)環(huán)境中。

如果你有興趣嘗試 TF-Ranking,請查看我們的GitHub 存儲庫,并參考教程示例。TF-Ranking 是一個活躍的研究項目,我們歡迎你的反饋和貢獻。我們很高興看到 TF-Ranking 能夠給信息檢索和機器學(xué)習(xí)研究社區(qū)帶來一些幫助。

英文原文:http://ai.googleblog.com/2018/12/tf-ranking-scalable-tensorflow-library.html

標(biāo)簽: Google 排名 搜索 搜索引擎 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:2018年最炙手可熱的10家大數(shù)據(jù)初創(chuàng)公司

下一篇:Twitter 的 Kafka 遷移歷程