Discrete-Time Nonlinear HJB Solution Using Approximate Dynamic Programming: Convergence Proof ,2008 Asma Al-Tamimi; Frank L. Lewis; Murad Abu-Khalaf IEEE Transactions on Systems
对离散非线性系统的整定问题,给出基于值迭代的HDP算法和收敛性证明,HDP收敛于最优控制和最优值函数,求解无限时域离散时间非线性系统中最优控制出现的HJB方程。给出值和动作的更新方程。评价网络近似值函数,动作网络近似最优控制,模型网络逼近实际系统。迭代值函数单调不减、有界,收敛到最优值。HDP算法实现不需要系统的内部动力学。对LQR问题,动作为线性的,值函数为二次型,神经网络没有近似误差。其他文献常仅有一个评价网络。
给出动态规划(DP)求解DARE是向后计算的,而HDP求解是向前计算的。HDP算法作为VI算法,不需要初始的稳定增益。


Lemma1给出任意控制序列下,辅助值函数与迭代值函数的不等式
Lemma2系统稳定时,值函数存在上界;若最优控制可求解时,V∗(xk)≤Y(xk)V ^{*}(x_k) ≤ Y (x_k)V∗(x

本文介绍了一种基于值迭代的HDP算法,用于求解离散时间非线性系统中的最优控制问题,提供了收敛性证明。算法利用神经网络逼近值函数,适用于LQR问题并具有向前计算的优点。然而,它也存在局限性,如对完整系统动力学的依赖以及对初始值函数苛刻的要求。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



