Online Optimal Control of Affine Nonlinear DT Systems With Unknown Internal Dynamics by Using Time-B

Online Optimal Control of Affine Nonlinear Discrete-Time Systems With Unknown Internal Dynamics by Using Time-Based Policy Update ,2012,Travis Dierks, Member, IEEE, and Sarangapani Jagannathan, Senior Member, IEEE

对仿射非线性离散时间系统,不使用策略迭代和值迭代方法,使用神经网络时间上向前求解HJB方程得到最优控制。
未知内部动力学和已知的控制协矩阵(仅需要输入增益),近似代价函数即评价网络,产生控制输入和策略更新即动作网络。在采样时刻对代价函数额和控制策略一次更新,称为time-based ADP。李雅普诺夫理论证明所有信号是一致最终有界,近似控制策略逼近最优控制策略以很小的有界误差,神经网络权重估计值接近目标值,此时代价函数和控制策略随时间更新。
作者以往文献提出使用单个网络近似评价和动作,未使用迭代算法,考虑网络近似误差,但仍需要系统完全动力学。K. G. Vamvoudakis and F. L. Lewis, “Online actor–critic algorithm to solve the continuous-time infinite horizon optimal control problem,”中未使用使用系统性能的时间历史。闭环系统是在固定的常数下有界,而本文提出的有界是动态时变的。
初始可稳定控制策略,评价网络在线学习HJB方程,动作网络基于评价网络的信息使得代价函数最小化。网络的权重更新使用过去性能指标的历史信息,其存储在辅助cost-to-go向量中。

在这里插入图片描述
由于最优控制需要未来时刻状态向量,不可直接求解。而在以往文献的值和策略迭代不适合实时控制,因为近似代价函数和控制输入是未知的。
稳定性需要满足,以候选正定李雅普诺夫函数VDV_DVD</

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值