推荐系统遇上深度学习(一三六)-[美团]基于强化学习的信息流广告分配方法CrossDQN...-优快云博客

本文介绍了美团团队在WWW2022上发表的论文CrossDQN，该方法利用强化学习解决信息流广告分配问题，以最大化平台收入并减少用户体验损失。现有方法存在忽略相邻展示影响和曝光占比平衡问题，CrossDQN通过State and Action Crossing Unit (SACU)和Multi-Channel Attention Unit (MCAU)建模相邻商家影响和用户偏好，实现更智能的广告插入决策。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

今天给大家介绍的是我们团队今年发表在WWW2022上的论文CrossDQN，提出了一种基于强化学习的信息流广告分配方法。这也是我个人在入职美团之后工作的主要方向。接下来我将对论文内容进行详细的介绍。

1、信息流广告分配背景

电商场景下的信息流通常包含两部分的内容，一类被称为自然结果，另一类是广告结果。二者以混合列表的形式展现给用户。如下图是工业界常见的混排系统的架构，广告和自然结果首先在各自的系统内进行排序，最后通过Blending Server决定广告的插入位置并展现给用户（在本文研究的混排方法中，Blending Server不会改变广告和自然结果内部的相对顺序，只决策广告插入的位置）：

基于展现给用户的混排列表，平台可以通过两个途径获取收入，一方面，当用户下单（无论自然结果还是广告结果）时，可以从中获取佣金；另一方面，当用户点击广告时，平台可以收取广告主的费用（一般为CPC计费）。由于广告的质量往往差于自然结果，过多的广告展示可能对用户体验有损，但过少的展示广告，则有可能对平台的收入有损，因此通常将广告的曝光占比控制在一定的范围之内。而本文研究的问题就是，在一定的曝光约束情况下，如何合理的进行广告位分配，能够使平台收入最大化，同时能够尽可能减少用户体验的损失。

当前的广告位分配方法主要可以分为两大类，固定位插入方法和动态位置插入方法。固定位的插入方法显然是一种次优的结果，不仅没有考虑用户个性化的信息，同时也容易被用户所跳过（用户容易感知广告的插入位置，每次浏览的时候进行跳过）。因此，近年来研究的重点，主要集中在动态位置插入的方法，如领英提出的基于RankScore的排序方法，以及字节提出的基于强化学习的方法Dear。

当前的动态位置插入方法，主要存在以下几方面的缺陷：
1）忽略了排序过程中相邻展示商家的相互影响，如领英的方法基于单位置决策，没有考虑已决策商家对于下文的影响。
2）在个性化和广告曝光占比之间缺少有效的平衡，如字节的Dear时四个位置插入一个广告或不插入，尽管可以控制广告曝光在1/4之下，但决策空间相对较小。

为了解决上述的问题，我们提出了一种基于强化学习的广告位置分配方法，称为Cross Deep Q Network (Cross DQN) 。接下来，对其框架进行详细介绍。