连续拟合值迭代在鲁棒策略中的应用
1. 连续拟合值迭代简介
连续拟合值迭代(Continuous Fitted Value Iteration, cFVI)是一种用于解决哈密顿-雅可比-贝尔曼(HJB)和哈密顿-雅可比-艾萨克斯(HJI)微分方程的方法。这种方法适用于连续状态和动作空间,而无需基于网格的采样。通过引入最优行动和对手的概念,cFVI能够简化这些复杂的微分方程,使其不再需要额外的优化步骤。
1.1 优化问题的简化
cFVI的核心思想是通过将最优行动和对手代入HJB和HJI方程,简化这些方程,使其无需优化。具体来说,当动态是控制仿射且奖励与状态和动作可分离时,可以解析地求解关于动作的最大化问题。这使得cFVI能够高效地解决这些微分方程,而无需使用数值优化方法。
1.2 边界条件的处理
在解决HJB时,边界条件是一个重要的考虑因素。标准的回归方法可能会导致解的不唯一性,尤其是在没有考虑边界约束的情况下。cFVI通过使用拟合值迭代(Fitted Value Iteration, FVI)克服了这个问题。FVI是经典动态规划值迭代(Value Iteration, VI)的扩展,它使用函数逼近器来处理连续状态。与VI相比,FVI在忽略由函数逼近引起的近似误差时,保证收敛到期望的最优价值函数。因此,FVI不需要结合回归技术所需的边界约束,从而避免了复杂性。
1.3 价值函数目标的迭代计算
FVI迭代地计算价值函数目标,并最小化目标与近似值之间的p-范数,直到价值函数收敛。从数学上讲,这个过程可以描述为:
[
V_{\text{tar}}(x_t) = \ma