KDD2020|字节联合密歇根州立大学提出推荐广告联合训练框架RAM(已开源)

KDD2020会议上,字节跳动和密歇根州立大学提出了一种新的双层强化学习框架RAM,用于联合优化推荐和广告策略。该框架通过级联DQN网络解决高维组合行动空间问题,旨在平衡用户体验与广告收入。实验证明,RAM有效提升了推荐和广告效果。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Jointly Learning to Recommend and Advertise

Xiangyu Zhao, Xudong Zheng, Xiwang Yang, Xiaobing Liu, Jiliang Tang

Bytedance, Michigan State University

https://dl.acm.org/doi/pdf/10.1145/3394486.3403384

对于在线推荐平台,比如电商或信息流网站,在线推荐与广告是两大收入渠道。但是,大多数平台由不同的组采用不同的技术来优化推荐和广告策略,这就有可能会导致次优的全局效果。

为此,这篇文章中,作者们提出一种新的双层强化学习框架来联合优化推荐和广告策略,第一层从长远角度出发产生一个推荐列表,来优化用户体验,第二层,将广告插入推荐列表中,对广告主的间接广告收入和对长期用户体验带来的负面影响进行平衡。

具体而言,第一层对应高维组合行动空间问题,即从大型商品空间中选出商品子集,第二层决定三个内在关联任务,即是否插入广告,如何插入最优广告,在何处插入最优广告。

真实数据集上的实验结果表明了作者们所提框架的有效性。

对于一个用户请求,推荐广告混合展示图示如下

7fa05487e5c626448ee54e49eb7d7d31.png

作者们将该问题抽象为马尔科夫决策过程,五大要素简介如下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值