Jointly Learning to Recommend and Advertise
Xiangyu Zhao, Xudong Zheng, Xiwang Yang, Xiaobing Liu, Jiliang Tang
Bytedance, Michigan State University
https://dl.acm.org/doi/pdf/10.1145/3394486.3403384
对于在线推荐平台,比如电商或信息流网站,在线推荐与广告是两大收入渠道。但是,大多数平台由不同的组采用不同的技术来优化推荐和广告策略,这就有可能会导致次优的全局效果。
为此,这篇文章中,作者们提出一种新的双层强化学习框架来联合优化推荐和广告策略,第一层从长远角度出发产生一个推荐列表,来优化用户体验,第二层,将广告插入推荐列表中,对广告主的间接广告收入和对长期用户体验带来的负面影响进行平衡。
具体而言,第一层对应高维组合行动空间问题,即从大型商品空间中选出商品子集,第二层决定三个内在关联任务,即是否插入广告,如何插入最优广告,在何处插入最优广告。
真实数据集上的实验结果表明了作者们所提框架的有效性。
对于一个用户请求,推荐广告混合展示图示如下
作者们将该问题抽象为马尔科夫决策过程,五大要素简介如下