Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof

本文介绍了一种基于值迭代的HDP算法,用于求解离散时间非线性系统中的最优控制问题,提供了收敛性证明。算法利用神经网络逼近值函数,适用于LQR问题并具有向前计算的优点。然而,它也存在局限性,如对完整系统动力学的依赖以及对初始值函数苛刻的要求。

Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof ,2008 Asma Al-Tamimi; Frank L. Lewis; Murad Abu-Khalaf IEEE Transactions on Systems

对离散非线性系统的整定问题,给出基于值迭代的HDP算法和收敛性证明,HDP收敛于最优控制和最优值函数,求解无限时域离散时间非线性系统中最优控制出现的HJB方程。给出值和动作的更新方程。评价网络近似值函数,动作网络近似最优控制,模型网络逼近实际系统。迭代值函数单调不减、有界,收敛到最优值。HDP算法实现不需要系统的内部动力学。对LQR问题,动作为线性的,值函数为二次型,神经网络没有近似误差。其他文献常仅有一个评价网络。
给出动态规划(DP)求解DARE是向后计算的,而HDP求解是向前计算的。HDP算法作为VI算法,不需要初始的稳定增益。
在这里插入图片描述
在这里插入图片描述
Lemma1给出任意控制序列下,辅助值函数与迭代值函数的不等式
Lemma2系统稳定时,值函数存在上界;若最优控制可求解时,V∗(xk)≤Y(xk)V ^{*}(x_k) ≤ Y (x_k)V(x

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值