網(wǎng)上有很多關(guān)于pos機程序升級,搜索EE場景排序鏈路升級的知識,也有很多人為大家解答關(guān)于pos機程序升級的問題,今天pos機之家(m.dsth100338.com)為大家整理了關(guān)于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
1、pos機程序升級
pos機程序升級
作者:京東零售 呂豪
背景EE(Explore & Exploit)模塊是搜索系統(tǒng)中改善生態(tài)、探索商品的重要鏈路,其目標(biāo)是緩解數(shù)據(jù)馬太效應(yīng)導(dǎo)致模型對商品排序豐富性、探索性不足,帶來的系統(tǒng)非最優(yōu)解問題。
在JD搜索體系中,EE模塊被定義的核心定位是:在給定流量和時間的約束下,探索出更多高效率的商品。EE的優(yōu)化目標(biāo)即為,以保障搜索效率為前提,提升廣義中長尾商品的探索成功率,提升搜索結(jié)果的流動性、豐富性。
EE場景迭代閉環(huán)由于EE場景的特殊性,其從核心定位 → 在線指標(biāo) → 離線評估體系 → 模型迭代的優(yōu)化鏈路中的每一步,都需結(jié)合EE特點進行針對性升級。
以下分別從模型迭代、在線實驗指標(biāo)、離線評估體系介紹相應(yīng)模塊的優(yōu)化。
模型Debias迭代問題背景EE的核心定位在于探索更多更高效的潛力中長尾商品,其首要回答的問題便是,在目前搜索體系中,哪些因素阻礙中長尾商品獲得更公平合理的展現(xiàn)機會?系統(tǒng)性的各類bias 。
1). Position-bias (展示位置偏置)
當(dāng)前打分模型基于每天dump的搜索日志進行訓(xùn)練更新。由于搜索結(jié)果的position-bias(位置偏置)效應(yīng),user的行為動作不僅與商品本身質(zhì)量有關(guān),而且受position(展示位置)較大影響。position-bias(位置偏置)效應(yīng)對頭部商品的增益,加劇了平臺生態(tài)的馬太效應(yīng)。使用position-bias的日志數(shù)據(jù)進行訓(xùn)練,而未對position(展示位置)做去偏,不利于中長尾商品的正確效率預(yù)估,不利于平臺流動性、豐富性和長期價值。
2). Polularity-bias (流行度偏置)
存在與user偏好匹配程度相當(dāng)?shù)亩鄠€商品時,由于商品間的歷史累計銷量、累計評論等流行度特征的差異,造成傾向于給用戶呈現(xiàn)熱門流行商品,已流行商品則更流行。而匹配程度相似的中長尾商品,則難有機會被展現(xiàn),中長尾更中長尾。
3). Exposure-bias (曝光偏置)
一次搜索請求下,只有有限的商品列表展現(xiàn)給user,絕大多商品無法展示;搜索系統(tǒng)一天內(nèi),整體被展現(xiàn)的商品集也只占全部商品集的小部分。 由此帶來的問題一方面是模型泛化問題,訓(xùn)練在已展現(xiàn)商品的日志上進行,serving需在所有商品上做推斷,如何平衡訓(xùn)練、推斷樣本分布差異化的矛盾,尤其是頭、尾部商品的巨大差距。另一方面是商品label問題,商品未累積獲得用戶正反饋,是因為與用戶不匹配,還是未有展現(xiàn)機會?
針對以上bias問題,EE排序模型從位置偏置建模、反事實推理學(xué)習(xí)方面進行升級,嘗試緩解position-bias和polularity-bias,取得一定收益。而Exposure-bias由于隨機dump樣本的label問題,還需要做更多探索。
目前EE排序模型整體結(jié)構(gòu)圖:
針對位置偏置,設(shè)計position-bias net于訓(xùn)練時建模位置作用、預(yù)測時mask,進行展示位置去偏。針對流行度偏置,構(gòu)建 U-I net/ item_net/ user_net 分別建模 用戶-商品內(nèi)容匹配度、流行度因子、用戶心智偏好因子的影響,依據(jù)因果效應(yīng)消除偏置因子作用,還原用戶對商品本身內(nèi)容的偏好度。位置去偏迭代1. Position-bias 位置偏置建模。EE模型升級至訓(xùn)練、預(yù)測兩階段的position-debias方案,通過pos-bias tower建模position-bias影響,并在高語義層級與輸出均值融合,擬合訓(xùn)練label,而后在預(yù)測階段摘除,以期去除pos-bias影響。
Pos的建模方式
1.1 pos as feat
訓(xùn)練階段,pos作為模型特征使用,與其他u/q/i側(cè)特征聯(lián)合,共同輸入模型網(wǎng)絡(luò),計算相應(yīng)logits并梯度回傳。預(yù)測推理階段,所有樣本強制采用同一個pos值,近乎理解為:同一個user/query下, 所有商品在同樣的展示位置上,進行預(yù)測分數(shù)比較。
其潛在風(fēng)險如下:
強制pos數(shù)值如何選擇。展示位置一般可限制在[0-30/60]內(nèi),然而不同強制位置的設(shè)定,會帶來排序結(jié)果的變化,如何在[0-60]間選擇合理的強制位置,以及不同時間和分布下,強制位置的選擇是否要重新進行。pos特征的重要性。將pos特征由網(wǎng)絡(luò)底層輸入,其重要性可能難以在最后的logits中得以充分體現(xiàn),其物理意義(位置因素影響用戶商品交互行為的作用大?。┎灰字庇^理解。1.2 multi-pos predict
設(shè)計最后一層為多位置通道輸出的網(wǎng)絡(luò),預(yù)測商品在各枚舉位置上的logits輸出。訓(xùn)練階段計算商品在所有位置上的輸出結(jié)果,只激活真實的pos通道計算logit和loss,其他位置通道進行mask。推斷時,貪心的從第一個位置開始,無放回的選擇當(dāng)前位置上的最優(yōu)商品,直至最后一個位置。
此方案適配用于排序位置較為固定的場景,如重排N選N,在搜索EE現(xiàn)有架構(gòu)下并不適配,一方面是SVGP結(jié)構(gòu)對多通道結(jié)果輸出并不友好,另一方面,EE現(xiàn)有插入范圍較大[1-60]、比較插入機制也需做非常復(fù)雜化的適配改造,方案過重。
1.3 pos as tower
升級現(xiàn)有DNN + 稀疏變分高斯(svgp) 采樣打分模型,采用基于position-bias net(位置偏置)的模型方案,方案具體為訓(xùn)練、預(yù)測兩階段的位置去偏。
訓(xùn)練階段通過引入展示位置表征作為位置偏好網(wǎng)絡(luò),與基于user/query/item的主網(wǎng)絡(luò)共同輸入,預(yù)估商品在當(dāng)前位置(位置偏好網(wǎng)絡(luò))及自身質(zhì)量(主網(wǎng)絡(luò))下的打分。預(yù)測階段通過摘除位置偏好網(wǎng)絡(luò),預(yù)測商品僅基于自身質(zhì)量的采樣打分,去除展示位置影響。通過此方案可以緩解訓(xùn)練數(shù)據(jù)的position-bias(位置偏執(zhí)),降低頭部商品由于展示位置的打分增益,同時減少中長尾商品由于靠后位置的打分折損,優(yōu)化搜索結(jié)果豐富性和平臺生態(tài)。2. 個性化位置偏置建模。用戶對商品的偏好是個性化的,不同用戶對商品的偏好不同。用戶對位置的偏好也是差異化的,不同用戶對位置的敏感度存在差異。
上文的bias-net建模方式,假定所有用戶對同一位置偏好相同,忽略了用戶間的位置偏好差異。典型例子如下,偏逛用戶在系統(tǒng)中對position相對不敏感,position的排名前后對用戶的行為決策影響相對更小,而對偏快速夠買用戶則影響截然相反。
個性化位置偏置建模。升級現(xiàn)有bias-net結(jié)構(gòu),引入用戶個性化特征,包括靜態(tài)profile和動態(tài)行為序列。通過個性化bias-net 計算不同用戶對不同position的位置偏好,更準確的還原用戶對商品內(nèi)容的真實偏好。
Pos Tower 與 svgp的結(jié)合方式。
2.1 SVGP簡介
GP(Gaussian process,高斯過程)是用于在樣本間存在相關(guān)關(guān)系的情況下,通過觀測值對未知樣本label 進行修正預(yù)測的算法。簡言之,距離觀測點越近的未知樣本,其均值被修正越多、更接近觀測值,方差也越收斂,反之亦然。SVGP(Sparse Variational Gaussian Process, 基于稀疏變分的高斯過程),針對大樣本量下協(xié)方差矩陣和求逆難以計算的問題,設(shè)計一定數(shù)量的可學(xué)習(xí)的引導(dǎo)點,對所有訓(xùn)練樣本進行歸納,未知樣本通過與引導(dǎo)點的協(xié)方差來計算均值和方差。
2.2 表征層融合(Representation Fusion)
Pos-tower與Main-tower融合方式有兩種,表征層融合和logit層融合。在SVGP計算前進行融合,即表征層向量進行融合,可以采用 concat/sum/avg 等各種方式。其難點在于,向量間的相加、平均操作,無法直觀理解其物理意義和作用,向量疊加是否導(dǎo)致logit正向增大,向量帶來多大的logit提升,這些位置偏置作用難以解析。
另外從模型結(jié)構(gòu)來看,svgp依賴樣本內(nèi)容間相似度計算均值和方差,而position-bias的影響應(yīng)該獨立于樣本內(nèi)容的計算。
2.3 logit層融合(Logit Fusion)
在svgp之后的logit層融合,可采用 logits 相乘相加方式,其直接從模型結(jié)構(gòu)上詮釋了這樣的公式 Label = f(content) + f(position) / Label = f(content) * f(position) ,其中 f(position)的絕對值大小,直觀的表示 position 帶來的增益大小。
位置偏置建模線上效果
保持大盤效率持平的情況下,EE核心指標(biāo)提升明顯,探索流動性指標(biāo)(探索更多商品)提升明顯 +1.35%,探索成功率指標(biāo)(探索更高效商品)顯著改善 +0.74%。
3.1 IPS
對每個商品預(yù)估 propensity score,然后采用逆向 propensity score 權(quán)重的方式,消除傾向分的影響,預(yù)估商品真實的內(nèi)容匹配度得分。
挑戰(zhàn)點:
如何準確獲得 propensity score,這是對后續(xù)糾偏的前提挑戰(zhàn)。整體為兩段式訓(xùn)練,鏈路上有一定復(fù)雜度。3.2 流行度降權(quán)
在實際搜推數(shù)據(jù)中,在user側(cè)、item側(cè)分別依據(jù)其流行程度,設(shè)計對應(yīng)降權(quán)權(quán)重,緩解整體被熱門用戶、商品所主導(dǎo)的趨勢,增強所關(guān)注樣本的影響力。
面臨難點:
合理的設(shè)計權(quán)重方案。如何挖掘hard example。3.3 基于因果關(guān)系的反事實推理
如何緩解流行度偏置問題?在訓(xùn)練鏈路中,增強改善中長尾商品的學(xué)習(xí)是一類重要方法;對用戶交互行為進行解構(gòu),拆分出商品流行度等因子的作用,是另一個視角的解決思路。
因果圖、因果關(guān)系簡介
因果圖是有向無環(huán)圖,其中節(jié)點表示隨機變量、有向邊表示節(jié)點之間的因果作用方向。如上圖對于節(jié)點Y變量,有兩條路徑的因果作用,分別是 I → Y 、I → K → Y。
I → Y 表示從 I 節(jié)點開始的自然直接因果效應(yīng) (NDE),作用路徑上沒有中間節(jié)點。I → K → Y 表示從 I 節(jié)點開始的間接因果效應(yīng) (TIE),K是路徑上的中間節(jié)點。直接因果效應(yīng)和間接因果效應(yīng)之和,即為Y變量的總因果效應(yīng) (TE)。總因果效應(yīng)計算,可以由自變量的單位擾動帶來的因變量變化進行計算,自然因果和間接因果效應(yīng)計算亦然:
以上公式可得,求出TE和NDE時,可推導(dǎo)計算中間接因果效應(yīng) TIE。
搜索中的因果效應(yīng)
在電商搜索場景下,用戶對商品的交互行為,可表示為 U-I 間各種因子的綜合作用。常見思路為考慮 U-I 間內(nèi)容匹配程度作為待預(yù)測因子,學(xué)習(xí)此因子在交互行為中的作用,在未來樣本上進行預(yù)測排序。
從電商搜索的現(xiàn)實情況出發(fā),對交互行為進一步拆分,影響用戶商品交互行為的因子大體包含如下三方面:
1). (U-I) → Y, U-I 內(nèi)容匹配度因子,用戶與item本身內(nèi)容的匹配程度、喜好程度對交互行為的影響,越喜歡則越點擊購買,2). I → Y, Item流行度特征,內(nèi)容偏好匹配程度相當(dāng)?shù)膸讉€商品時,由于歷史累計銷量等流行度特征,熱門商品展現(xiàn)更多、被交互概率更高。3). U → Y, 用戶天然心智,user對流行商品的偏好程度不同,有些用戶更傾向于熱門商品,部分用戶則并不敏感。以上因子的拆解,包括了U/I 內(nèi)容匹配度的間接因子的效應(yīng),也包括了 U、I的直接效應(yīng)影響。因此在EE模型中設(shè)計如下網(wǎng)絡(luò),分別建模各個因子的作用:
具體分別設(shè)計 UI-Match-Net, User-Net, Item-Net 分別預(yù)測對應(yīng)三種因子的作用,其中總效應(yīng),U/I 效應(yīng)分別表示為
在訓(xùn)練中Loss的設(shè)計如下,分別表示
U-I與label的loss,優(yōu)化主模型的準確性U、I側(cè)直接因子的loss,通過這種方式分別預(yù)測兩種直接因子對交互結(jié)果的影響alpha/beta 為訓(xùn)練時超參預(yù)測階段緩解流行度偏置,主要在于去除流行度因素、用戶心智因果(偏置因子)的影響,具體通過總因果效應(yīng)減去自然直接效應(yīng)(偏置因子效應(yīng)),盡量準確還原 U-I 內(nèi)容匹配程度的影響
TIE = TE - NDE
反事實推理后的因果圖狀態(tài)如下,將U/I 的直接效應(yīng)消除,保留U-I 內(nèi)容匹配度的效應(yīng):
反事實推理建模線上效果
保持大盤效率持平的情況下,EE核心指標(biāo)提升明顯,探索流動性指標(biāo)(探索更多商品)提高 +0.82%,探索成功率指標(biāo)(探索更高效商品) 顯著提升 +0.66%。
探索成功率指標(biāo),用于在小流量AB期間指導(dǎo)EE效果分析,其設(shè)計思路從EE核心價值出發(fā),推導(dǎo)出長期價值相關(guān)聯(lián)的AB期間核心指標(biāo)。
具體而言,即論證 探索成功率指標(biāo) → EE核心價值。
滿足探索成功率的商品,跟蹤其一定時間后在搜索中的承接狀態(tài),是否被大盤較好承接。搜索中承接狀態(tài),主要為三要素:流量、點擊、訂單。通過對 1). 商品概況和承接定義, 2). 商品承接統(tǒng)計, 3). 分層承接分析 等方面進行分析,迭代出搜索EE在AB實驗期間所關(guān)注的EE核心指標(biāo)集–探索成功率。
EE線上指標(biāo)主要關(guān)注
1). 大盤效率,UCVR和UV價值2). 探索成功率, 其余輔助觀測指標(biāo)包括 流動性指標(biāo)、豐富性指標(biāo)。在線的探索成功率和輔助指標(biāo),現(xiàn)階段難以與模型離線指標(biāo)(AUC等)關(guān)聯(lián),無法在離線評測EE模型的探索能力,限制EE模型迭代速度,極大增加迭代時間成本。
針對EE場景特異性的指標(biāo),設(shè)計了離線指標(biāo)評測集合,分別從 效率、中長尾探索強度、不確定預(yù)估等方面,綜合評測EE模型,加速迭代。
搜索EE是提升搜索場景流動性、多樣性的關(guān)鍵模塊,其面臨的問題和以效率排序為主模塊的問題有很大差異,對EE同學(xué)提出了不一樣的挑戰(zhàn)。
針對EE場景的特點,排序模型從Debias(打分公平性)入手,拆解存在于各種排序場景的bias問題,對位置偏置和流行度偏置問題升級較通用化的解決方案,取得了EE核心指標(biāo)的顯著提升。同時對于迭代鏈路中的 在線AB指標(biāo)、離線評估體系,也進行了論證和迭代,完成對整個EE排序閉環(huán)鏈路的升級。限于篇幅,AB指標(biāo)和離線評估體系在這里不做全面展開,感興趣的同學(xué)歡迎隨時交流,共同探討。
EE場景面臨的挑戰(zhàn)很多,后續(xù)計劃從如下方面繼續(xù)深入探索:
1). 引入更豐富的用戶探索信號的表達,增加explore-net和監(jiān)督loss,提升EE模型對探索偏好的學(xué)習(xí)。
2). 思考EE的長期價值,如何在模型結(jié)構(gòu)、Loss設(shè)計上結(jié)合長期價值。
3). 優(yōu)化EE探索機制和EE候選集,提升EE全鏈路探索能力。
以上就是關(guān)于pos機程序升級,搜索EE場景排序鏈路升級的知識,后面我們會繼續(xù)為大家整理關(guān)于pos機程序升級的知識,希望能夠幫助到大家!
