21、连续时间拟合值迭代用于鲁棒策略

连续时间拟合值迭代用于鲁棒策略

1. 引言

在机器人控制中,获取最大化奖励的最优控制输入是一个关键问题。解决哈密顿-雅可比-贝尔曼(HJB)方程是实现这一目标的一种方法,因为它表达了最优性的充分必要条件。HJB方程的解给出了最优价值函数,该函数可以用于检索每个状态下的最优行动。然而,求解HJB方程的传统方法通常依赖于离散网格上的偏微分方程求解器,这在连续时间强化学习问题中显得不切实际。为了解决这一问题,研究人员提出了使用机器学习工具集中的黑箱函数近似和回归技术,通过随机采样的数据来解决HJB方程。

本文提出了一种新的方法——连续拟合值迭代(cFVI)和鲁棒拟合值迭代(rFVI),通过值迭代解决HJB和HJI微分方程。这些算法适用于连续状态和动作空间,无需基于网格的采样。与以往方法不同,本文的方法扩展了最优策略的推导,适用于更广泛的奖励函数类别,并引入了最优对手的概念。此外,本文还使用值迭代而不是回归技术来解决这些方程,从而获得更可靠的优化结果。

2. 算法概述

2.1 连续拟合值迭代(cFVI)

cFVI是一种基于值迭代的算法,用于解决连续状态和动作的HJB问题。该算法利用了控制仿射动态和可分离奖励的特点,以封闭形式获得最优策略。具体来说,cFVI使用深度网络作为价值函数近似,并通过值迭代逐步优化价值函数。由于其解析解的存在,cFVI可以高效地解决HJB方程,而不需要在每一步计算最优动作,这在离散动作中是难以实现的。

2.2 鲁棒拟合值迭代(rFVI)

rFVI与cFVI类似,但解决了哈密顿-雅可比-艾萨克斯(HJI)方程。HJI方程引入了一个额外的对手,试图最小化奖励。因此,rFVI获得

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值