35、具有切换成本的对抗性在线强化学习

具有切换成本的对抗性在线强化学习

1. 切换成本研究概述

切换成本在各种在线问题中已受到广泛关注,例如在在线凸优化、凸体追踪、度量任务系统、在线集合覆盖、k - 服务器问题以及在线控制等方面均有研究。

2. 具有切换成本的对抗性多臂老虎机学习
2.1 问题描述
  • 基本设定 :在具有切换成本的对抗性多臂老虎机学习中,有 $A$ 个臂 ${1, 2, …, A}$。在每个时间步 $t$,在线智能体根据算法 $\pi$ 从这些臂中选择一个臂 $a^{\pi}(t)$,该臂将产生损失 $l_t(a^{\pi}(t))$。损失函数 $l_t(\cdot)$ 可以在不同时间任意变化。
  • 切换成本 :如果在时间 $t$ 选择的臂 $a^{\pi}(t)$ 与时间 $t - 1$ 选择的臂 $a^{\pi}(t - 1)$ 不同,则会产生切换成本 $\beta$。
  • 总成本 :$T$ 个时间槽的总成本为:
    [Cost(1 : T ) \triangleq \sum_{t = 1}^{T} l_t(a^{\pi}(t)) + \sum_{t = 1}^{T - 1} \beta \cdot \mathbb{1}{a^{\pi}(t + 1) \neq a^{\pi}(t)}]
  • 最优算法成本 :最优算法 $\pi^ $ 能提前知晓未来损失,因此可以在整个时间范围内只选择一个臂。其成本为:
    [Cost^{\pi^ <
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值