连续时间拟合值迭代用于鲁棒策略
1. 引言
在机器人控制领域,获得最大化奖励的最优控制输入是一项关键任务。一种常用的方法是通过解决哈密顿-雅可比-贝尔曼(HJB)方程,该微分方程表达了最优性的充分必要条件。解决 HJB 可以得到最优价值函数,该函数用于检索每个状态下的最优行动。此外,为了处理对抗性环境,我们引入了哈密顿-雅可比-艾萨克斯(HJI)方程,该方程引入了一个额外的对手,试图最小化奖励。因此,获得的策略和价值函数对对手的干扰具有鲁棒性。
在本章中,我们将介绍使用值迭代解决 HJB 和 HJI 的方法。这种方法统一了我们之前提出的算法连续拟合值迭代(cFVI)和鲁棒拟合值迭代(rFVI)的推导。cFVI 用于解决 HJB,而 rFVI 用于解决 HJI。我们将这些算法称为值迭代的扩展,因为它们也将 FVI 方法扩展到了连续动作和对抗性强化学习,这是以前不可能实现的。以前的 FVI 仅限于离散动作。
2. 强化学习问题的描述
无限视界连续时间强化学习问题可以描述为:
[
\pi^*(x_0) = \arg \max_u \int_{0}^{\infty} \exp(-\rho t) r_c(x_t, u_t) \, dt
]
[
V^*(x_0) = \max_u \int_{0}^{\infty} \exp(-\rho t) r_c(x_t, u_t) \, dt
]
其中,(\rho \in (0, \infty]) 是折扣因子,(r_c) 是奖励,(f_c) 是动态。值得注意的是,离散时间奖励和折扣可以使用连续时间对应物来描述,即 (r(x, u)