Online Optimal Control of Affine Nonlinear DT Systems With Unknown Internal Dynamics by Using Time-B_online optimal control of affine nonlinear discret-优快云博客

Online Optimal Control of Affine Nonlinear Discrete-Time Systems With Unknown Internal Dynamics by Using Time-Based Policy Update ，2012，Travis Dierks, Member, IEEE, and Sarangapani Jagannathan, Senior Member, IEEE

对仿射非线性离散时间系统，不使用策略迭代和值迭代方法，使用神经网络时间上向前求解HJB方程得到最优控制。
未知内部动力学和已知的控制协矩阵（仅需要输入增益），近似代价函数即评价网络，产生控制输入和策略更新即动作网络。在采样时刻对代价函数额和控制策略一次更新，称为time-based ADP。李雅普诺夫理论证明所有信号是一致最终有界，近似控制策略逼近最优控制策略以很小的有界误差，神经网络权重估计值接近目标值，此时代价函数和控制策略随时间更新。
作者以往文献提出使用单个网络近似评价和动作，未使用迭代算法，考虑网络近似误差，但仍需要系统完全动力学。K. G. Vamvoudakis and F. L. Lewis, “Online actor–critic algorithm to solve the continuous-time infinite horizon optimal control problem,”中未使用使用系统性能的时间历史。闭环系统是在固定的常数下有界，而本文提出的有界是动态时变的。
初始可稳定控制策略，评价网络在线学习HJB方程，动作网络基于评价网络的信息使得代价函数最小化。网络的权重更新使用过去性能指标的历史信息，其存储在辅助cost-to-go向量中。

在这里插入图片描述
由于最优控制需要未来时刻状态向量，不可直接求解。而在以往文献的值和策略迭代不适合实时控制，因为近似代价函数和控制输入是未知的。
稳定性需要满足，以候选正定李雅普诺夫函数 $V_D$

Online Optimal Control of Affine Nonlinear DT Systems With Unknown Internal Dynamics by Using Time-B

Online Optimal Control of Affine Nonlinear Discrete-Time Systems With Unknown Internal Dynamics by Using Time-Based Policy Update ，2012，Travis Dierks, Member, IEEE, and Sarangapani Jagannathan, Senior Member, IEEE

1 条评论