Online Optimal Control of Affine Nonlinear Discrete-Time Systems With Unknown Internal Dynamics by Using Time-Based Policy Update ,2012,Travis Dierks, Member, IEEE, and Sarangapani Jagannathan, Senior Member, IEEE
对仿射非线性离散时间系统,不使用策略迭代和值迭代方法,使用神经网络时间上向前求解HJB方程得到最优控制。
未知内部动力学和已知的控制协矩阵(仅需要输入增益),近似代价函数即评价网络,产生控制输入和策略更新即动作网络。在采样时刻对代价函数额和控制策略一次更新,称为time-based ADP。李雅普诺夫理论证明所有信号是一致最终有界,近似控制策略逼近最优控制策略以很小的有界误差,神经网络权重估计值接近目标值,此时代价函数和控制策略随时间更新。
作者以往文献提出使用单个网络近似评价和动作,未使用迭代算法,考虑网络近似误差,但仍需要系统完全动力学。K. G. Vamvoudakis and F. L. Lewis, “Online actor–critic algorithm to solve the continuous-time infinite horizon optimal control problem,”中未使用使用系统性能的时间历史。闭环系统是在固定的常数下有界,而本文提出的有界是动态时变的。
初始可稳定控制策略,评价网络在线学习HJB方程,动作网络基于评价网络的信息使得代价函数最小化。网络的权重更新使用过去性能指标的历史信息,其存储在辅助cost-to-go向量中。

由于最优控制需要未来时刻状态向量,不可直接求解。而在以往文献的值和策略迭代不适合实时控制,因为近似代价函数和控制输入是未知的。
稳定性需要满足,以候选正定李雅普诺夫函数VDV_DVD</

最低0.47元/天 解锁文章
233

被折叠的 条评论
为什么被折叠?



