Model-Free Optimal Tracking Control via Critic-Only Q-Learning

Model-Free Optimal Tracking Control via Critic-Only Q-Learning Biao Luo, Member, IEEE, 2016,Derong Liu, Fellow, IEEE, Tingwen Huang, and Ding Wang, Member, IEEE

对非仿射非线性离散时间系统,提出model-free最优跟踪控制问题。仅有评价网络的QLearning方法,根据真实系统数据学习最优跟踪控制,因此避免了求解HJB方程。Qlearning算法基于增广系统,仅使用一个神经网络近似Qfunction。考虑神经网络的近似误差证明了CoQL方法的收敛性。采用梯度下降法。CoQL是基于off-policy和仅有评价结构的方法。
为避免显式使用期望控制,利用期望参考轨迹的误差系统和指令生成器以获得增广系统,并且引入折扣因子,不需要内部动力学,采用在线策略迭代方法对线性或非线性连续系统实现最优跟踪轨迹控制 “H. Modares and F. L. Lewis, “Linear quadratic tracking control of partially-unknown continuous-time systems using reinforcement learning”,在具有输入限制的非线性离散系统“B. Kiumarsi and F. L. Lewis, “Actor–critic-based optimal tracking for partially unknown nonlinear discrete-time systems,”,在无完整系统模型,利用输入输出数据求解线性离散系统的最优跟踪控制问题”B. Kiumarsi, F. L. Lewis, M.-B. Naghibi-Sistani, and A. Karimpour, “Optima

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值