连续时间拟合值迭代在鲁棒策略中的应用
1 引言
在机器人控制中,获得最大化奖励的最优控制输入是至关重要的。为此,我们可以通过解决哈密顿-雅可比-贝尔曼(HJB)方程来实现,因为这个微分方程表达了一个最优性的充分必要条件。然而,传统的HJB求解方法通常依赖于偏微分方程求解器,这在实际应用中存在局限性。为了克服这些局限性,我们提出了一种基于值迭代的方法来解决HJB和其对抗性扩展——哈密顿-雅可比-艾萨克斯(HJI)方程。这种方法不仅适用于连续状态和动作空间,而且无需基于网格的采样。具体来说,我们介绍了两种算法:连续拟合值迭代(cFVI)和鲁棒拟合值迭代(rFVI)。这些算法通过值迭代和深度网络相结合,实现了高效的最优策略学习。
1.1 动机
在机器人控制任务中,我们需要设计一种方法,能够在面对环境参数变化时保持鲁棒性。传统的深度强化学习方法在模拟环境中表现出色,但在实际物理系统中往往难以迁移。为了解决这一问题,我们引入了对抗性强化学习的概念,通过在训练过程中引入对手来优化最坏情况下的性能。这种对抗性方法不仅提高了策略的鲁棒性,还使得策略能够在实际系统中更好地迁移。
2 问题陈述
我们专注于解决哈密顿-雅可比-贝尔曼(HJB)和哈密顿-雅可比-艾萨克斯(HJI)微分方程。这些方程可以通过连续时间强化学习问题及其相应的对抗性扩展来推导。具体来说,我们首先介绍连续时间强化学习问题,然后将其扩展到对抗性公式。
2.1 强化学习
无限视界连续时间强化学习问题由以下内容描述:
[
\pi^ (x_0) = \arg \max_u \int_{0}^{\infty} \exp(