中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

騰訊QQ大數(shù)據(jù):機器學(xué)習(xí)建模問題中的特征構(gòu)造方法

2018-08-09    來源:raincent

容器云強勢上線!快速搭建集群,上萬Linux鏡像隨意使用
在機器學(xué)習(xí)建模問題中,合適特征的構(gòu)造對于模型的性能至關(guān)重要,看到很多同學(xué)介紹特征工程,包括特征的預(yù)處理和特征篩選等,這些非常重要,但是特征預(yù)處理和特征篩選的前提是要有基礎(chǔ)特征,而這些特征從哪里來,又如何構(gòu)造?現(xiàn)在總結(jié)一下在推薦系統(tǒng)中比較通用的特征構(gòu)造方法。

場景分析:

推薦場景一般可以抽象為:內(nèi)容(Item)和受眾(User),其中內(nèi)容主要是指要推薦的Item,在購物場景中Item就是商品,歌曲推薦中Item就是歌曲,受眾是訪問當(dāng)前場景的用戶,一般是自然行為人;推薦模型一般是計算不同的User-Item對的得分,這個得分反映的是用戶點擊當(dāng)前物品的概率,獲取得分最高的Top n的Item推薦給用戶,所以整個特征關(guān)聯(lián)模型可以抽象為如下圖-1所示:

 

 

圖-1 推薦系統(tǒng)關(guān)系模型

其中,可以分解為如下幾部分:User-Item特征、User特征、Item特征、User-Item屬性分布特征,下面具體闡述每種特征的構(gòu)造方法。

User-Item特征:

User-Item特征主要從三個維度來刻畫User對Item的“興趣”,如圖-2所示:

 

 

圖-2 User-Item類型的特征構(gòu)造

1)時間序列上的統(tǒng)計特征:

統(tǒng)計特征從四個角度(絕對值,相對值,是否感興趣和深度感興趣)來刻畫User對Item的“興趣”。比如,時間序列中User累積對某個Item的行為次數(shù)就是User對Item的絕對興趣值:如果時間序列分為:一天、三天、一周(實際中時間還需要繼續(xù)拉長一點來刻畫用戶長期的興趣),行為是“點擊”。那么這一個特征構(gòu)造語句就可以翻譯成三個不同的特征:分別是最近一天,三天和七天用戶對每個Item的點擊次數(shù);時間序列上User對Item是否有重復(fù)的行為用來刻畫和區(qū)分哪些Item是對User有深度吸引力的,如果在一段時間上只發(fā)生了一次行為,那么很可能User對這個Item并沒有興趣,只是隨便看看;時間序列上User對Item是否有行為,用來刻畫User過去某一段時間用戶的關(guān)注點在哪里,對哪些是可能喜歡的,和上面的一條特征的區(qū)別在于可以涵蓋用戶可能比較感興趣的Item并且這樣用戶興趣特征也會更加豐富。

2)時間特征:

時間特征從三個角度(最近時間,行為頻度,行為穩(wěn)定性)來刻畫用戶對于Item的興趣在不同時間上的活躍度。比如,User對Item的最后行為時間,可以翻譯成一個時間特征,可以將這個時間進行歸一化為一個0—1的標(biāo)量,越接近于1表示User對這個Item具有越強的新鮮度;User對某個Item的平均行為時間間隔用來刻畫User對Item的活躍頻率,時間間隔越小說明對用戶的吸引力越大。User對Item的行為時間間隔方差可以用來刻畫User對Item的喜好的穩(wěn)定性。

3)趨勢特征:

趨勢特征主要刻畫用戶對某個Item的興趣趨勢。比如,User一天對Item的行為次數(shù)/User三天對Item的行為次數(shù)的均值,表示短期User對Item的熱度趨勢,大于1表示活躍逐漸在提高;三天User對Item的行為次數(shù)的均值/七天User對Item的行為次數(shù)的均值表示中期User對Item的活躍度的變化情況;七天User對Item的行為次數(shù)的均值/ 兩周User對Item的行為次數(shù)的均值表示“長期”(相對)User對Item的活躍度的變化情況。

User特征:

User特征主要包括用戶的屬性特征以及從多個方面刻畫用戶的“活躍度”,User類型的特征構(gòu)造方法如圖-3所示:

 

 

圖-3 User類型的特征構(gòu)造

時間序列的統(tǒng)計特征:

主要從三個維度(User總活躍,用戶深度活躍,用戶對于Item的覆蓋度)來刻畫用戶的活躍。比如,時間序列上User行為次數(shù)總和,在劃分成三個時間細(xì)粒度的情況下,可以翻譯成三個特征,分別是一天,三天和七天User的行為總和,來表示User在當(dāng)前時間段上的活躍。時間序列上User重復(fù)行為次數(shù)用來刻畫用戶真實的活躍深度。時間序列上User有行為的Item的數(shù)量,可以用來刻畫用戶的活躍廣度,來表示用戶是否有足夠的意愿嘗試新的Item。

1)時間特征:

主要從三個角度(最近時間,行為頻度,行為穩(wěn)定性)來刻畫用戶的活躍度。比如,User最后行為時間,時間越接近當(dāng)前時間說明User的活躍度越強;User的平均行為時間間隔用來刻畫User的活躍度,時間間隔越小說明User的活躍度越強。User的行為時間間隔方差可以用來刻畫User活躍的穩(wěn)定性。

2)趨勢特征:

趨勢特征用來刻畫User的活躍趨勢。比如,User一天的行為次數(shù)/User三天的行為次數(shù)的均值,表示短期User活躍趨勢,大于1表示活躍逐漸在提高;三天User的行為次數(shù)的均值/七天User的行為次數(shù)的均值表示中期User的活躍趨勢;七天User的行為次數(shù)的均值/ 兩周User的行為次數(shù)的均值表示“長期”(相對)User的活躍趨勢。

3)屬性特征:

主要用來刻畫用戶的一些屬性特征包括性別、年齡、學(xué)歷以及使用機型等。

Item特征

Item特征主要包括Item的屬性特征以及從多個方面刻畫Item的“熱度”,Item類型的特征構(gòu)造方法如圖-4所示:

 

 

圖-4 Item類型特征構(gòu)造

1)時間序列的統(tǒng)計特征:

從三個維度(Item的行為熱度,熱度趨勢和時間間隔)來刻畫Item的熱度。比如,時間序列上Item行為次數(shù)總和,在劃分成三個時間細(xì)粒度的情況下,可以翻譯成三個特征,分別是一天,三天和七天Item的行為總和,來表示Item在當(dāng)前時間段上的熱度。時間序列上Item被重復(fù)點擊次數(shù)用來刻畫Item真實的熱度深度,尤其在APP的推薦上,重復(fù)的使用或者點擊說明當(dāng)前APP對用戶的吸引力越強。時間序列上和當(dāng)前Item發(fā)生行為的User的數(shù)量(去重)刻畫了Item的熱度的廣度。時間序列上Item的點擊和曝光的比值(User不去重)—CTR,刻畫了Item在相同曝光下被點擊的概率。時間序列上Item的點擊和曝光的比值(User去重)—CTR,刻畫了Item在相同曝光下被點擊的概率,剔除了某些特殊情況某個User對某個Item的行為過于集中的情況。

2)時間特征:

主要從三個角度(最近時間,行為頻度,行為穩(wěn)定性)來刻畫Item的熱度。比如,Item最后行為時間,表示Item的最近活躍;Item的平均行為時間間隔用來刻畫Item的熱度,時間間隔越小說明的熱度越高。Item的行為時間間隔方差可以用來刻畫Item熱度的穩(wěn)定性。

3)趨勢特征:

主要刻畫Item的熱度和CTR的趨勢。比如,Item一天的行為次數(shù)/Item三天的行為次數(shù)的均值,表示短期Item的熱度趨勢,大于1表示熱度逐漸在提高;三天Item的行為次數(shù)的均值/七天Item的行為次數(shù)的均值表示中期Item的熱度趨勢;七天Item的行為次數(shù)的均值/ 兩周Item的行為次數(shù)的均值表示“長期”(相對)Item的熱度趨勢。另外一種特征表示CTR的趨勢:其中一天的Item的CTR / 三天Item的CTR表示“短期”Item的CTR趨勢信息。

4)屬性特征:

主要用來刻畫Item的一些屬性特征主要包括所屬的類別。

User和Item之間的屬性分布特征:

主要通過計算在不同時間段上User和Item之間的行為的統(tǒng)計特征:如果當(dāng)前的User的屬性包括:性別、年齡和Device,Item的屬性包括:Item_id和類別,那么特征構(gòu)造方法如圖-5所示:

 

 

圖-5 User和Item之間屬性分布特征構(gòu)造

1)時間序列上Item在Age的分布特征:

通過計算Item在年齡段上的行為數(shù)量(User不去重和不去重)來刻畫Item在不同年齡段上的熱度;Item在年齡段上的行為數(shù)量/Item總的行為數(shù)量來表示User在年齡上的熱度分布;Item在不同年齡段上的點擊和Item在相應(yīng)的年齡段上的曝光之間的比值來刻畫Item在不同的年齡段上的CTR。

2)時間序列上Item在Gender的分布特征:

通過計算Item在性別上的行為數(shù)量(User不去重和不去重)來刻畫Item在不同性別上的熱度;Item在性別上的行為數(shù)量/Item總的行為數(shù)量來表示User在性別上的熱度分布;Item在不同性別上的點擊和Item在相應(yīng)的性別上的曝光之間的比值來刻畫Item在不同的性別上的CTR。

3)時間序列上Item在Device的分布特征:

通過計算Item在不同Device上的行為數(shù)量(User不去重和不去重)來刻畫Item在不同Device上的熱度;Item在不同Device上的行為數(shù)量/Item總的行為數(shù)量來表示User在Device上的熱度分布;Item在不同Device上的點擊和Item在相應(yīng)的Device上的曝光之間的比值來刻畫Item在不同的Device上的CTR。

4)時間序列上User在ItemType上的分布特征:

通過計算User在不同的ItemType上的行為數(shù)量來刻畫Use對不同的ItemType的喜好,計算User在不同的ItemType上是否有行為來刻畫在時間段上User是否對當(dāng)前的Item的類型感興趣,計算User的行為在不同的Item上的分布來刻畫對不同的ItemType的喜好程度。User在一段時間內(nèi),是否在ItemType上有重復(fù)行為,來刻畫用戶是否對當(dāng)前ItemType深度感興趣。

5)時間序列上ItemType在Age上的分布特征:

通過計算ItemType在不同年齡段上的行為數(shù)量(User不去重和不去重)來刻畫ItemType在不同年齡段上的熱度;ItemType在不同年齡段上的行為數(shù)量/ItemType在年齡段上的用戶數(shù)量來刻畫當(dāng)前ItemType對這個年齡段的User的吸引程度;ItemType在不同年齡段上的點擊和ItemType在相應(yīng)的年齡段上的曝光之間的比值來刻畫ItemType在不同的年齡段上的CTR。

6)時間序列上ItemType在Gender上的分布特征:

通過計算ItemType在不同性別上的行為數(shù)量(User不去重和不去重)來刻畫ItemType在不同性別上的熱度;ItemType在不同性別上的行為數(shù)量/ItemType在當(dāng)前性別上的行為用戶數(shù)量來刻畫當(dāng)前ItemType對這個性別的User的吸引程度;ItemType在不同性別上的點擊和ItemType在相應(yīng)的性別上的曝光之間的比值來刻畫ItemType在不同的性別上的CTR。

上面列舉了一些常見屬性之間的分布特征,都是User針對Item或者Item針對User的統(tǒng)計分布,這些只是大部分場景中會出現(xiàn)的場景,在具體的業(yè)務(wù)中可以根據(jù)實際可以獲取到的屬性結(jié)合和樣本之間的相關(guān)性來進行建模。

特征選擇:

在實際的業(yè)務(wù)中,首先需要思考的是如何正確的構(gòu)建樣本對,在恰當(dāng)?shù)臉颖緦?gòu)造的基礎(chǔ)上思考和樣本標(biāo)簽具有相關(guān)性的因素,這些因素包括用戶和物品側(cè),找到這些因素之后才是特征構(gòu)建,不同的場景和算法情況下需要不同的特征選擇:比如說游戲推薦中活躍時長、付費意愿很重要,而弱化了在性別上的分布,因為游戲?qū)儆谟脩粽承员容^大的類型,在商品推薦中性別分布和瀏覽、加購物車行為則同等重要,因為用戶的性別和用戶之間的興趣有很強的相關(guān)性;對于不同的算法同樣也需要不同的特征體系,對于邏輯回歸這種解釋性很強的線性模型,通常需要根據(jù)建模場景選擇特征的細(xì)粒度,然后生成和樣本具有相關(guān)性的特征,獲取相關(guān)性最直接的方法是對特征進行特征交叉,而對于樹模型或者FM模型,理論上則不需要進行特征交叉,因為模型本身就具有了特征的交叉能力?傊线m模型加上適配的特征特征體系才能獲得較好的效果。

小結(jié):

特征工程通常在算法調(diào)優(yōu)中占據(jù)了大部分的時間,本文旨在通過梳理推薦系統(tǒng)中常用的特征構(gòu)造方法,實現(xiàn)快速的特征構(gòu)造。本文主要是面向初涉推薦系統(tǒng)的同學(xué),可以快速構(gòu)造一些簡單有效的特征,同時,本文提到的一些特征構(gòu)造方法在某些場景下是冗余的,并不能帶來新的信息,所以在實際的應(yīng)用場景中還需要根據(jù)需求進行選擇。

附錄:

整體特征構(gòu)造框架如圖-6所示:

 

 

圖6 特征構(gòu)造框架

標(biāo)簽:

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請與原作者聯(lián)系。

上一篇:Gartner 最新IaaS收入排名前五:AWS、Azure、阿里云等

下一篇:GAN用于材料設(shè)計:哈佛大學(xué)新研究登上Science