深入探讨连续时间拟合值迭代在鲁棒策略中的应用
1. 连续时间强化学习
连续时间强化学习(Continuous Time Reinforcement Learning, CT-RL)是近年来备受关注的研究领域。它将强化学习从传统的离散时间域扩展到连续时间域,使得强化学习能够更自然地应用于许多现实世界中的物理系统。这类系统通常由微分方程描述,因此连续时间模型可以更好地捕捉其动态特性。
1.1 Doya的开创性工作
Doya在他的研究中首次引入了连续时间强化学习的概念。他展示了如何使用机器学习工具集来解决哈密顿-雅可比-贝尔曼(HJB)微分方程。具体来说,Doya的方法将HJB方程转化为一系列易于处理的优化问题,从而为寻找最优控制策略提供了一种新的途径。
1.2 基于轨迹和基于状态空间的方法
自Doya的工作以来,研究者们提出了两种主要的方法来解决HJB方程:基于轨迹的方法和基于状态空间的方法。
-
基于轨迹的方法 :这类方法沿着一条特定的轨迹来求解HJB方程,以获得最优的轨迹。例如,路径积分控制(Path Integral Control)通过引入非线性、控制仿射动态和二次动作成本,将HJB简化为线性偏微分方程。该方程可以使用费曼-卡茨公式转换为路径积分,并通过蒙特卡洛采样求解。这种方法已经被结合深度网络使用,以提高求解效率和精度。
-
基于状态空间的方法 :与基于轨迹的方法不同,这类方法试图在全球范围内求解HJB方程,以获得适用于整个状态域的最优非线性控制器。经典方法通常将连续空间离散