35、具有切换成本的对抗性在线强化学习

最新推荐文章于 2025-09-22 11:51:07 发布

元编程奶

最新推荐文章于 2025-09-22 11:51:07 发布

阅读量34

点赞数

CC 4.0 BY-SA版权

分类专栏： AI赋能网络安全新范式文章标签：切换成本对抗性在线学习多臂老虎机

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/b9c0d/article/details/152593224

AI赋能网络安全新范式专栏收录该内容

52 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

具有切换成本的对抗性在线强化学习

1. 切换成本研究概述

切换成本在各种在线问题中已受到广泛关注，例如在在线凸优化、凸体追踪、度量任务系统、在线集合覆盖、k - 服务器问题以及在线控制等方面均有研究。

2. 具有切换成本的对抗性多臂老虎机学习

2.1 问题描述

基本设定 ：在具有切换成本的对抗性多臂老虎机学习中，有 $A$ 个臂 ${1, 2, …, A}$。在每个时间步 $t$，在线智能体根据算法 $\pi$ 从这些臂中选择一个臂 $a^{\pi}(t)$，该臂将产生损失 $l_t(a^{\pi}(t))$。损失函数 $l_t(\cdot)$ 可以在不同时间任意变化。
切换成本 ：如果在时间 $t$ 选择的臂 $a^{\pi}(t)$ 与时间 $t - 1$ 选择的臂 $a^{\pi}(t - 1)$ 不同，则会产生切换成本 $\beta$。
总成本 ：$T$ 个时间槽的总成本为：
[Cost(1 : T ) \triangleq \sum_{t = 1}^{T} l_t(a^{\pi}(t)) + \sum_{t = 1}^{T - 1} \beta \cdot \mathbb{1}{a^{\pi}(t + 1) \neq a^{\pi}(t)}]
最优算法成本 ：最优算法 $\pi^ $ 能提前知晓未来损失，因此可以在整个时间范围内只选择一个臂。其成本为：
[Cost^{\pi^ <

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。