4、连续时间拟合值迭代在鲁棒策略中的应用

Linux

于 2025-06-26 10:24:57 发布

阅读量7

点赞数

CC 4.0 BY-SA版权

分类专栏：机器人学习新突破：融合物理与深度学习文章标签：连续时间强化学习值迭代鲁棒策略

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/linux/article/details/149350404

机器人学习新突破：融合物理与深度学习专栏收录该内容

23 篇文章 ¥399.00 ¥499.90

订阅专栏

超级会员免费看

连续时间拟合值迭代在鲁棒策略中的应用

1 引言

在机器人控制中，获得最大化奖励的最优控制输入是至关重要的。为此，我们可以通过解决哈密顿-雅可比-贝尔曼（HJB）方程来实现，因为这个微分方程表达了一个最优性的充分必要条件。然而，传统的HJB求解方法通常依赖于偏微分方程求解器，这在实际应用中存在局限性。为了克服这些局限性，我们提出了一种基于值迭代的方法来解决HJB和其对抗性扩展——哈密顿-雅可比-艾萨克斯（HJI）方程。这种方法不仅适用于连续状态和动作空间，而且无需基于网格的采样。具体来说，我们介绍了两种算法：连续拟合值迭代（cFVI）和鲁棒拟合值迭代（rFVI）。这些算法通过值迭代和深度网络相结合，实现了高效的最优策略学习。

1.1 动机

在机器人控制任务中，我们需要设计一种方法，能够在面对环境参数变化时保持鲁棒性。传统的深度强化学习方法在模拟环境中表现出色，但在实际物理系统中往往难以迁移。为了解决这一问题，我们引入了对抗性强化学习的概念，通过在训练过程中引入对手来优化最坏情况下的性能。这种对抗性方法不仅提高了策略的鲁棒性，还使得策略能够在实际系统中更好地迁移。

2 问题陈述

我们专注于解决哈密顿-雅可比-贝尔曼（HJB）和哈密顿-雅可比-艾萨克斯（HJI）微分方程。这些方程可以通过连续时间强化学习问题及其相应的对抗性扩展来推导。具体来说，我们首先介绍连续时间强化学习问题，然后将其扩展到对抗性公式。

2.1 强化学习

无限视界连续时间强化学习问题由以下内容描述：
[
\pi^ (x_0) = \arg \max_u \int_{0}^{\infty} \exp(

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。