Dual Mirror Descent for Online Allocation Problems

探讨在线分配问题,在资源约束下最大化奖励。提出基于镜像下降的在线算法,应对未来需求未知的挑战。算法通过调整权重进行贪婪决策,并通过镜像下降更新权重,实现简单快速的在线决策。

在线分配问题
需求重复到达—>每个需求都要决策动作:获得奖励和消耗资源。
问题:在资源约束下最大化奖励
挑战:未来需求未知

提出一种算法:
每个资源有权重
用调整权重奖励的贪婪方法来执行动作。
用镜像下降更新权重

算法
镜像下降允许
乘法权重更新

对比现有算法
基于对偶。含有拉格朗日变量对每种资源
现有方法:为对抗输入设计、需要求解线性规划或者凸优化。本文简单快速、不用解凸优化。
模型
有限范围T个阶段、
j=1…m 有Bj容量限制
在每个阶段:
接受一个凹的、有界的奖励函数ft
接受一个消耗矩阵bt
在一些凸的紧凑的集合X中采取动作xt
收集奖励ft(xt)和消耗bt(xt)

离线问题:
目标是max ft(xt),就一个约束小于容量约束。

在线问题:
假设需求(ft,bt)服从未知独立同分布
用P表示需求的未知分布

基于历史观察数据做决策
已知T的长度和容量B
不知道输入的分布
需要满足资源约束

在输入分布P下算法A的累计期望奖励 R(A|P)
输入P的离线期望奖励 OPT§
输入分布最坏情况的Regret(A) 是以上两者相减。

拉格朗日对偶抢救?,把约束放到目标中,产生跨时间和渐进紧的界

从资源约束引入拉格朗日乘子 u ∈Rm 得到
公式D(u|P) (关键点:决策分解across time)
对于任意u>0 ,对偶函数提供了一个上界。
公式OPT§ < D(u|p)(关键点:对于最优对偶变量,上界是无症状asymptotically紧,当T和B很大时)

拉格朗日对偶抢救?(连续)
挑战1:如何决策

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值