Dual Mirror Descent for Online Allocation Problems

原创

已于 2022-10-02 20:22:42 修改 · 805 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#算法 #机器学习 #人工智能

于 2022-10-01 17:19:56 首次发布

探讨在线分配问题，在资源约束下最大化奖励。提出基于镜像下降的在线算法，应对未来需求未知的挑战。算法通过调整权重进行贪婪决策，并通过镜像下降更新权重，实现简单快速的在线决策。

在线分配问题
需求重复到达—>每个需求都要决策动作：获得奖励和消耗资源。
问题：在资源约束下最大化奖励
挑战：未来需求未知

提出一种算法：
每个资源有权重
用调整权重奖励的贪婪方法来执行动作。
用镜像下降更新权重

算法
镜像下降允许
乘法权重更新

对比现有算法
基于对偶。含有拉格朗日变量对每种资源
现有方法：为对抗输入设计、需要求解线性规划或者凸优化。本文简单快速、不用解凸优化。
模型
有限范围T个阶段、
j=1…m 有Bj容量限制
在每个阶段：
接受一个凹的、有界的奖励函数ft
接受一个消耗矩阵bt
在一些凸的紧凑的集合X中采取动作xt
收集奖励ft(xt)和消耗bt(xt)

离线问题：
目标是max ft(xt)，就一个约束小于容量约束。

在线问题：
假设需求(ft,bt)服从未知独立同分布
用P表示需求的未知分布

基于历史观察数据做决策
已知T的长度和容量B
不知道输入的分布
需要满足资源约束

在输入分布P下算法A的累计期望奖励 R(A|P)
输入P的离线期望奖励 OPT§
输入分布最坏情况的Regret(A) 是以上两者相减。

拉格朗日对偶抢救？，把约束放到目标中，产生跨时间和渐进紧的界

从资源约束引入拉格朗日乘子 u ∈Rm 得到
公式D(u|P) （关键点：决策分解across time）
对于任意u>0 ，对偶函数提供了一个上界。
公式OPT§ < D(u|p)（关键点：对于最优对偶变量，上界是无症状asymptotically紧,当T和B很大时）

拉格朗日对偶抢救？（连续）
挑战1：如何决策

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。