「我在淘天做技术」迈步从头越 - 阿里妈妈广告智能决策技术的演进之路

原创

于 2023-11-28 15:38:23 发布 · 2.3k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#阿里妈妈 #智能决策 #广告

本文以阿里妈妈为例，介绍广告智能决策技术。自动出价决策技术历经四代发展，强化学习在自动出价场景大规模应用并不断创新。拍卖机制设计从远观到深度优化，有可Learning的拍卖机制等，还探讨了自动出价和拍卖机制的联合设计及多样的广告主行为建模。

作者：妙临、霁光、玺羽

一、前言

在线广告对于大多数同学来说是一个既熟悉又陌生的技术领域。「搜广推」、「搜推广」等各种组合耳熟能详，但广告和搜索推荐有本质区别：广告解决的是“媒体-广告平台-广告主”等多方优化问题，其中媒体在保证用户体验的前提下实现商业化收入，广告主的诉求是通过出价尽可能优化营销目标，广告平台则在满足这两方需求的基础上促进广告生态的长期繁荣。

广告智能决策技术在这之中起到了关键性的作用，如图 1 所示，它需要解决如下问题在内的一系列智能决策问题：1. 为广告主设计并实现自动出价策略，提升广告投放效果；2. 为媒体设计智能拍卖机制来保证广告生态系统的繁荣和健康。

图 1：广告智能决策通过自动出价和拍卖机制等方式实现多方优化

随着智能化营销产品和机器学习的发展，阿里妈妈将深度学习和强化学习等 AI 技术越来越多地应用到广告智能决策领域，如 RL-based Bidding（基于强化学习的出价）帮助广告主显著提升广告营销效果，Learning-based Auction Design（基于学习的拍卖机制设计）使得多方利益的统筹优化更加高效。我们追根溯源，结合时代发展的视角重新审视广告智能决策技术的演化过程，本文将以阿里妈妈广告智能决策技术的演进为例，分享我们工作和思考。也希望能以此来抛砖引玉，和大家一块探讨。

二、持续突破的自动出价决策技术

广告平台吸引广告主持续投放的核心在于给他们带来更大的投放价值，典型的例子就是自动化的出价产品一经推出便深受广告主的喜爱并持续的投入预算。在电商场景下，我们不断地探索流量的多元化价值，设计更能贴近营销本质的自动出价产品，广告主只需要简单的设置就能清晰的表达营销诉求。

图 2：出价产品逐步的智能化 &自动化，广告主只需要简单的设置即可清晰的表达出营销诉求

极简产品背后则是强大的自动出价策略支撑，其基于海量数据自动学习好的广告投放模式，以提升给定流量价值下的优化能力。考虑到广告优化目标、预算和成本约束，自动出价可以统一表示为带约束的竞价优化问题。

其中 B 为广告主的预算，kj 为成本约束，该问题就是要对所有参竞的流量进行报价，以最大化竞得流量上的价值总和。如果已经提前知道要参竞流量集合的全部信息，包括能够触达的每条流量的价值和成本等，那么可以通过线性规划（LP）方法来求得最优解。然而在线广告环境的动态变化以及每天到访用户的随机性，竞争流量集合很难被准确的预测出来。因此常规方法并不完全适用，需要构建能够适应动态环境的自动出价算法。

对竞价环境做一定的假设（比如拍卖机制为单坑下的 GSP，且流量竞得价格已知），通过拉格朗日变换构造最优出价公式，将原问题转化为最优出价参数的寻优问题[9]：

对于每一条到来的流量按照此公式进行出价，其中 vi，qi，j 为在线流量竞价时可获得的流量信息，为要求解的参数。而参数并不能一成不变，需要根据环境的动态变化不断调整。参竞流量的分布会随时间发生变化，广告主也会根据自己的经营情况调整营销设置，前序的投放效果会影响到后续的投放策略。因此，出价参数的求解本质上是动态环境下的序列决策问题。

2.1 主线：从跟随到引领，迈向更强的序列决策技术

如何研发更先进的算法提升决策能力是自动出价策略发展的主线，我们参考了业界大量公开的正式文献，并结合阿里妈妈自身的技术发展，勾勒出自动出价策略的发展演进脉络。

图 3：自动出价策略的演进主线：迈向更强的决策能力

整体可以划分为 4 个阶段：

●第一代：经典控制类

把效果最大化的优化问题间接转化为预算消耗的控制问题。基于业务数据计算消耗曲线，控制预算尽可能按照设定的曲线来消耗。PID[1]及相关改进[2][10]是这一阶段常用的控制算法。当竞价流量价值分布稳定的情况下，这类算法能基本满足业务上线之初的效果优化。

●第二代：规划求解类

相比于第一代，规划求解类（LP）算法直接面向目标最大化优问题来进行求解。可基于前一天的参竞流量来预测当前未来流量集合，从而求解出价参数。自动出价问题根据当前已投放的数据变成新的子问题，因此可多次持续的用该方法进行求解，即 Online LP[3][4]。这类方法依赖对未来参竞流量的精准预估，因此在实际场景落地时需要在未来流量的质和量的预测上做较多的工作。

●第三代：强化学习类

现实环境中在线竞价环境是非常复杂且动态变化的，未来的流量集合也是难以精准预测的，要统筹整个预算周期投放才能最大化效果。作为典型的序列决策问题，第三阶段用强化学习类方法来优化自动出价策略。其迭代过程从早期的经典强化学习方法落地[5][6][8][9]，到进一步基于 Offline RL 方法逼近「在线真实环境的数据分布」[9]，再到末期贴近问题本质基于 Online RL 方法实现和真实竞价环境的交互学习[13]。

●第四代：生成模型类

以 ChatGPT 为代表的生成式大模型以汹涌澎湃之势到来，在多个领域都表现出令人惊艳的效果。新的技术理念和技术范式可能会给自动出价算法带来革命性的升级。阿里妈妈技术团队提前布局，以智能营销决策大模型 AIGA（AI Generated Action）为核心重塑了广告智能营销的技术体系，并衍生出以 AIGB（AI Generated Bidding）[14]为代表的自动出价策略。

为了让大家有更好的理解，我们以阿里妈妈的实践为基础，重点讲述下强化学习在工业界的落地以及对生成式模型的探索。

✪ 2.1.1 强化学习在自动出价场景的大规模应用实践

跟随：不断学习、曲折摸索

作为典型的序列决策问题，使用强化学习（RL）是很容易想到的事情，但其在工业界的落地之路却是充满曲折和艰辛的。最初学术界[8]做了一些探索，在请求粒度进行建模，基于 Model-based RL 方法训练出价智能体（Agent），并在请求维度进行决策。如竞得该 PV，竞价系统返回该请求的价值，否则返回 0，同时转移到下一个状态。这种建模方法应用到工业界遇到了很多挑战，主要原因在于工业界参竞流量巨大，请求粒度的建模所需的存储空间巨大；转化信息的稀疏性以及延迟反馈等问题也给状态构造和 Reward 设计带来很大的挑战。为使得 RL 方法能够真正落地，需要解决这几个问题：