15、连续时间拟合值迭代用于鲁棒策略

Linux

于 2025-07-07 15:59:30 发布

阅读量4

点赞数

CC 4.0 BY-SA版权

分类专栏：机器人学习新突破：融合物理与深度学习文章标签：连续时间拟合值迭代鲁棒策略哈密顿-雅可比-贝尔曼方程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/linux/article/details/149350446

机器人学习新突破：融合物理与深度学习专栏收录该内容

23 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

连续时间拟合值迭代用于鲁棒策略

1. 引言

在机器人控制领域，获得最大化奖励的最优控制输入是一项关键任务。一种常用的方法是通过解决哈密顿-雅可比-贝尔曼（HJB）方程，该微分方程表达了最优性的充分必要条件。解决 HJB 可以得到最优价值函数，该函数用于检索每个状态下的最优行动。此外，为了处理对抗性环境，我们引入了哈密顿-雅可比-艾萨克斯（HJI）方程，该方程引入了一个额外的对手，试图最小化奖励。因此，获得的策略和价值函数对对手的干扰具有鲁棒性。

在本章中，我们将介绍使用值迭代解决 HJB 和 HJI 的方法。这种方法统一了我们之前提出的算法连续拟合值迭代（cFVI）和鲁棒拟合值迭代（rFVI）的推导。cFVI 用于解决 HJB，而 rFVI 用于解决 HJI。我们将这些算法称为值迭代的扩展，因为它们也将 FVI 方法扩展到了连续动作和对抗性强化学习，这是以前不可能实现的。以前的 FVI 仅限于离散动作。

2. 强化学习问题的描述

无限视界连续时间强化学习问题可以描述为：

[
\pi^*(x_0) = \arg \max_u \int_{0}^{\infty} \exp(-\rho t) r_c(x_t, u_t) \, dt
]

[
V^*(x_0) = \max_u \int_{0}^{\infty} \exp(-\rho t) r_c(x_t, u_t) \, dt
]

其中，(\rho \in (0, \infty]) 是折扣因子，(r_c) 是奖励，(f_c) 是动态。值得注意的是，离散时间奖励和折扣可以使用连续时间对应物来描述，即 (r(x, u)

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。