17、连续拟合值迭代:迈向最优和鲁棒控制策略

连续拟合值迭代:迈向最优和鲁棒控制策略

1. 优化问题的解析解

在连续时间强化学习中,求解哈密顿-雅可比-贝尔曼(HJB)和哈密顿-雅可比-艾萨克斯(HJI)微分方程是获得最优控制策略的关键。这些方程通常用于描述连续时间系统的最优性条件。HJB方程通过最大化奖励来描述最优价值函数,而HJI方程则引入了对手,试图最小化奖励,从而获得对环境变化具有鲁棒性的策略。

1.1 解析解的推导

为了求解HJB和HJI方程,首先需要解决其中包含的优化问题。幸运的是,这些优化问题可以在封闭形式中求解。具体来说,假设动态是控制仿射的(即动态模型关于控制输入是仿射的),并且奖励函数是可分离的(即奖励函数可以分解为状态和动作的独立部分),我们可以得到以下解析解:

[
u^ = \nabla \tilde{g}(B(x)^T \nabla_x V^ )
]

其中,( \nabla_x V^ ) 是价值函数 ( V^ ) 关于系统状态的雅可比,( \tilde{g} ) 是动作成本函数 ( g ) 的凸共轭。这个解析解使得我们可以使用拟合值迭代(FVI)来解决HJB和HJI方程,而不需要进行复杂的数值优化。

1.2 价值函数的优化

通过引入最优行动和最优对手,HJB和HJI方程可以简化为无需优化的微分方程。具体来说,将最优行动 ( u^ ) 和最优对手 ( \xi^ ) 代入HJB和HJI方程后,可以得到以下简化形式:

[
\rho V^ (x) = r(x, u^ ) + f_c(x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值