召回09 双塔模型+自监督学习

引入:

自监督学习改进双塔模型,可以提升业务指标。自监督学习是把物品塔学习得更习的更好

长尾物品的曝光和点击数量太少,训练的样本次数不够。自监督可以更好地学习长尾数据的物品表征。

双塔模型的训练:

线上召回的时候不用纠偏,不需要调整余弦相似度。


 

自监督学习:

对一个物品做随机特征变换得到不同的特征,这两个向量表征应该有高相似度,但是不同物品的表征向量应该分散开。

特征变换:

random mask

本来一个物品有多个类目,分别对每一个类目都做embadding,得到两个向量,再取加和或者平均。而做mask之后,丢掉全部的类目,变成默认缺失值,做embadding。

dropout

complementary

mask一组关联的特征

类目和性别的关联就很强。

训练模型:

用变换后的特征训练模型,从全部物品随机抽样,区别于双塔模型是根据点击行为抽样的。

推导损失函数:

sii应该接近1,其余sij应该接近0。训练希望si接近yi,将其交叉熵记为损失函数。

总结:

让不同物品的向量表征尽量spread out ,分散在整个特征空间上,而不是集中在一起。指标有改善。

第一个batch训练双塔,包括用户塔和物品塔;第二个batch做自监督学习,只训练物品塔。最后做梯度下降使损失函数减小。Lmain 是双塔的损失,  Lself是自监督的损失,分别取平均。α是超参数,决定自监督学习起到的作用。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值