Linear Quadratic Tracking Control of Partially-Unknown Continuous-time Systems using RL

本文探讨了在系统动力学部分未知的情况下,如何使用强化学习在线求解LQT的ARE方程,以实现线性二次跟踪控制。研究了增广ARE的因果解和标准解的局限性,并提出基于积分RL和神经网络的算法来求解最优控制策略。文中还涉及了稳定性分析和Matlab仿真实现。

Linear Quadratic Tracking Control of Partially-Unknown Continuous-time Systems using Reinforcement Learning,2014, Hamidreza Modares, Frank L. Lewis, Fellow, IEEE

原系统状态和指令生成器的值函数形式是二次型的。LQT贝尔曼方程和LQT的ARE方程,以求解LQT方程。采用积分RL算法在系统漂移动力学或者指令生成器未知的情况下在线求解LQT的ARE方程解,并给出收敛性分析。
传统LQT解最优控制由两部分:求解ARE得到反馈项,求解微分方程或利用系统动力学先验计算期望控制输入。反馈项稳定跟踪误差动力学,前馈项保证跟踪轨迹。传统离线方法,需要时间上向后计算和完整系统动力学。
在以往文章中采用动力学可逆概念以求得前馈控制输入,RL以求解最优反馈控制输入。但动力学可逆需要控制输入是可逆的,且具有完全的系统动力学知识。初始化可容许控制策略,仅利用测量数据和指令生成器在线学习最优控制策略。

假设(A,B)可稳定的,(A,QC\sqrt{Q}CQ

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值