Event-Triggered Control of Discrete-Time Zero-Sum Games via Deterministic Policy Gradient Adaptive Dynamic Programming ,2022,Yongwei Zhang ,BoZhao , Senior Member, IEEE, Derong Liu , Fellow, IEEE, and Shunchao Zhang
离散时间非线性系统处理零和博弈问题,文章提出基于确定性策略梯度(PGADP)算法的事件触发控制(ETC),采用输入和输出数据,ETC控制方法使用梯度下降更新控制策略和扰动策略。对比传统的PGADP控制方法,为确保系统输入和状态稳定性,在触发瞬间对控制策略和扰动策略进行非周期调整,以减小计算和通信负担。actor-critic-disturbance框架以获得最优控制策略和最坏扰动策略,以保证闭环系统输入-状态的稳定性。基于经验重放,提出新的神经网络权重更新规则,保证权重估计误差是最终一致有界的。
零和博弈问题两者互相竞争,目标是完全相反的,一个最大化性能指标,则另一个最小化性能指标。而非零和博弈问题,各有自己目标,两者不仅竞争,而且合作
ETC方法更新控制策略,仅在实际系统状态与采样系统状态之间的误差违反触发条件更新控制策略。神经网络权重和控制策略在触发时刻进行调整以减少代价。大多数DT零和博弈问题是时间触发的,控制器执行周期的,消耗大量计算资源。
提出基于数据的确定性梯度下降事件触发控制方法,是策略梯度PG控制方法扩展,解决零和博弈问题。不需要建立模型网络
actor-critic-disturbance框架