Policy Gradient Adaptive Critic Designs for Model-Free Optimal Tracking Control WithExperience Replay, 2022,Mingduo Lin, Bo Zhao , Senior Member, IEEE, and Derong Liu , Fellow, IEEE
对离散非线性系统采用策略梯度自适应评价方法(PGACD)与经验重放(ER),求解model-free最优跟踪控制器。最优跟踪控制问题转化为最优调节问题,off-policy PGACD算法最小化迭代Qfunction和提升跟踪控制性能。基于评价网络和动作网络近似迭代Qfunction和迭代控制策略。策略梯度计算,仅利用测量系统数据,推导出新的网络权值更新规律。证明收敛,利用李雅普诺夫直接法证明基于PGACD控制器的闭环系统的稳定性,动作网络和评价网络的权重近似误差是最终一致有界UUB,为保证稳定性和增加学习过程中的数据利用率,基于经验重复ER以提高可实现性。
潜在问题:在大规模和高度非线性实际应用中,精确系统模型难以确定;大量测量数据收集与存储导致低效;需要系统数据充分探索以获得最优控制器;PG方法下非线性系统稳定性还存在问题。
PG算法,动作网络新的权重更新方法,不需要系统精确模型;off-policy learning跟踪控制器,以不同策略的测量数据对目标策略进行评估,在学习过程中可避免不充分探索问题;经验重放ER使用批量系统数据。
跟踪误差动力学
原系统转化为增广系统,则原系统的最优跟踪控制问题转化为增广系统的最优调节问题
给出Qfunction,根据贝尔曼最优性原理
可容许控制策略u使系统稳定且保证性能指标函数是有界的。
由于复杂非线性,最