基于强化学习预算约束出价:Budget Constrained Bidding by Model-free ReinforcementLearning in Display Advertising

带约束的出价优化问题是近年来在互联网广告出价机制上的热点话题,本文主要介绍了基于强化学习的预算约束出价问题,主要结合论文《Budget Constrained Bidding by Model-free ReinforcementLearning in Display Advertising》提出一些自己的思考。

1 背景

所谓的带预算约束的出价策略是一类自动出价问题,是指在客户的原始出价表达外,系统还需要通过微调出价,在不超过客户约预算情况下,使得客户的目标价值最大化。可以将带问题建模为如下线性规划问题。

\begin{matrix} \max \sum_i x_i*v_i \\s.t. \sum_i x_i * c_i \le B \end{matrix}

  • $x_i$在点击计费情况下表示点击

  • $c_i$表示点击计费

  • $B$表示预算

  • $v_i$表示点击客户心理价值,在GSP拍卖场景实际为客户原始出价$b^o_i$

通过上式我们可以看出,当系统稳定且完全竞争的情况下,当预算约束恰好满足时,客户的目标价值最大的,此时可以计算系统出价的形式为,这里的$\lambda$实际上是反映了的出价计费系数,这个出价系数可以根据历史数据通过线性规划求解。

$b_i = \frac{v_i}{\lambda}$

因为$x_i,c_i,v_i$的分布会随时间发生极大变动,一种

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值