15、连续时间拟合值迭代用于鲁棒策略

连续时间拟合值迭代用于鲁棒策略

1. 引言

在机器人控制领域,获得最大化奖励的最优控制输入是一项关键任务。一种常用的方法是通过解决哈密顿-雅可比-贝尔曼(HJB)方程,该微分方程表达了最优性的充分必要条件。解决 HJB 可以得到最优价值函数,该函数用于检索每个状态下的最优行动。此外,为了处理对抗性环境,我们引入了哈密顿-雅可比-艾萨克斯(HJI)方程,该方程引入了一个额外的对手,试图最小化奖励。因此,获得的策略和价值函数对对手的干扰具有鲁棒性。

在本章中,我们将介绍使用值迭代解决 HJB 和 HJI 的方法。这种方法统一了我们之前提出的算法连续拟合值迭代(cFVI)和鲁棒拟合值迭代(rFVI)的推导。cFVI 用于解决 HJB,而 rFVI 用于解决 HJI。我们将这些算法称为值迭代的扩展,因为它们也将 FVI 方法扩展到了连续动作和对抗性强化学习,这是以前不可能实现的。以前的 FVI 仅限于离散动作。

2. 强化学习问题的描述

无限视界连续时间强化学习问题可以描述为:

[
\pi^*(x_0) = \arg \max_u \int_{0}^{\infty} \exp(-\rho t) r_c(x_t, u_t) \, dt
]

[
V^*(x_0) = \max_u \int_{0}^{\infty} \exp(-\rho t) r_c(x_t, u_t) \, dt
]

其中,(\rho \in (0, \infty]) 是折扣因子,(r_c) 是奖励,(f_c) 是动态。值得注意的是,离散时间奖励和折扣可以使用连续时间对应物来描述,即 (r(x, u)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值