在线分配问题
需求重复到达—>每个需求都要决策动作:获得奖励和消耗资源。
问题:在资源约束下最大化奖励
挑战:未来需求未知
提出一种算法:
每个资源有权重
用调整权重奖励的贪婪方法来执行动作。
用镜像下降更新权重
算法
镜像下降允许
乘法权重更新
对比现有算法
基于对偶。含有拉格朗日变量对每种资源
现有方法:为对抗输入设计、需要求解线性规划或者凸优化。本文简单快速、不用解凸优化。
模型
有限范围T个阶段、
j=1…m 有Bj容量限制
在每个阶段:
接受一个凹的、有界的奖励函数ft
接受一个消耗矩阵bt
在一些凸的紧凑的集合X中采取动作xt
收集奖励ft(xt)和消耗bt(xt)
离线问题:
目标是max ft(xt),就一个约束小于容量约束。
在线问题:
假设需求(ft,bt)服从未知独立同分布
用P表示需求的未知分布
基于历史观察数据做决策
已知T的长度和容量B
不知道输入的分布
需要满足资源约束
在输入分布P下算法A的累计期望奖励 R(A|P)
输入P的离线期望奖励 OPT§
输入分布最坏情况的Regret(A) 是以上两者相减。
拉格朗日对偶抢救?,把约束放到目标中,产生跨时间和渐进紧的界
从资源约束引入拉格朗日乘子 u ∈Rm 得到
公式D(u|P) (关键点:决策分解across time)
对于任意u>0 ,对偶函数提供了一个上界。
公式OPT§ < D(u|p)(关键点:对于最优对偶变量,上界是无症状asymptotically紧,当T和B很大时)
拉格朗日对偶抢救?(连续)
挑战1:如何决策

探讨在线分配问题,在资源约束下最大化奖励。提出基于镜像下降的在线算法,应对未来需求未知的挑战。算法通过调整权重进行贪婪决策,并通过镜像下降更新权重,实现简单快速的在线决策。
最低0.47元/天 解锁文章
804

被折叠的 条评论
为什么被折叠?



