连续时间拟合值迭代用于鲁棒策略
1. 引言
在机器人控制中,获取最大化奖励的最优控制输入是一个关键问题。解决哈密顿-雅可比-贝尔曼(HJB)方程是实现这一目标的一种方法,因为它表达了最优性的充分必要条件。HJB方程的解给出了最优价值函数,该函数可以用于检索每个状态下的最优行动。然而,求解HJB方程的传统方法通常依赖于离散网格上的偏微分方程求解器,这在连续时间强化学习问题中显得不切实际。为了解决这一问题,研究人员提出了使用机器学习工具集中的黑箱函数近似和回归技术,通过随机采样的数据来解决HJB方程。
本文提出了一种新的方法——连续拟合值迭代(cFVI)和鲁棒拟合值迭代(rFVI),通过值迭代解决HJB和HJI微分方程。这些算法适用于连续状态和动作空间,无需基于网格的采样。与以往方法不同,本文的方法扩展了最优策略的推导,适用于更广泛的奖励函数类别,并引入了最优对手的概念。此外,本文还使用值迭代而不是回归技术来解决这些方程,从而获得更可靠的优化结果。
2. 算法概述
2.1 连续拟合值迭代(cFVI)
cFVI是一种基于值迭代的算法,用于解决连续状态和动作的HJB问题。该算法利用了控制仿射动态和可分离奖励的特点,以封闭形式获得最优策略。具体来说,cFVI使用深度网络作为价值函数近似,并通过值迭代逐步优化价值函数。由于其解析解的存在,cFVI可以高效地解决HJB方程,而不需要在每一步计算最优动作,这在离散动作中是难以实现的。
2.2 鲁棒拟合值迭代(rFVI)
rFVI与cFVI类似,但解决了哈密顿-雅可比-艾萨克斯(HJI)方程。HJI方程引入了一个额外的对手,试图最小化奖励。因此,rFVI获得