Linear Quadratic Tracking Control of Partially-Unknown Continuous-time Systems using Reinforcement Learning,2014, Hamidreza Modares, Frank L. Lewis, Fellow, IEEE
原系统状态和指令生成器的值函数形式是二次型的。LQT贝尔曼方程和LQT的ARE方程,以求解LQT方程。采用积分RL算法在系统漂移动力学或者指令生成器未知的情况下在线求解LQT的ARE方程解,并给出收敛性分析。
传统LQT解最优控制由两部分:求解ARE得到反馈项,求解微分方程或利用系统动力学先验计算期望控制输入。反馈项稳定跟踪误差动力学,前馈项保证跟踪轨迹。传统离线方法,需要时间上向后计算和完整系统动力学。
在以往文章中采用动力学可逆概念以求得前馈控制输入,RL以求解最优反馈控制输入。但动力学可逆需要控制输入是可逆的,且具有完全的系统动力学知识。初始化可容许控制策略,仅利用测量数据和指令生成器在线学习最优控制策略。
假设(A,B)可稳定的,(A,QC\sqrt{Q}CQ

本文探讨了在系统动力学部分未知的情况下,如何使用强化学习在线求解LQT的ARE方程,以实现线性二次跟踪控制。研究了增广ARE的因果解和标准解的局限性,并提出基于积分RL和神经网络的算法来求解最优控制策略。文中还涉及了稳定性分析和Matlab仿真实现。
最低0.47元/天 解锁文章
3369





