A novel adaptive dynamic programming based on tracking error for nonlinear discrete-time systems✩,2021, Chun Li, Jinliang Ding, Frank L. Lewis, Tianyou Chai
对离散非线性系统的最优跟踪问题,提出新的值函数形式,以通过ADP算法消除跟踪误差。为避免求解参考控制输入,将控制输入引入控制跟踪误差中,忽略控制输入的二次型,使得最优控制策略仅与跟踪误差和参考跟踪轨迹有关。值函数的收敛性和有界性与折扣因子无关。基于提出的值迭代方法,在不考虑参考控制输入情况下推导出最优控制策略。根据VI和PI算法证明所得到控制策略的最优性,并推出迭代值函数的收敛性和单调性。采用神经网络和动作评价网络验证ADP算法有效性。
根据往年的文献,跟踪问题可转化为调节问题,但不易求解参考控制输入。可通过原系统和指令生成器组成增广系统,避免求解参考控制输入。当增广系统不可控,其边界与值函数的参数有关,则不能消除跟踪误差。
根据Actor–Critic-Based Optimal Tracking for Partially Unknown Nonlinear Discrete-Time Systems 2015提出的值函数进行改进。包含折扣因子 γ \gamma γ
以上的值函数形式在特殊情况下,跟踪误差不能被消除。因此对其改进值函数:
根据最优控制的必要条件得到最优控制的表达式,虽然不易直接计算,但是仍可作为控制策略的表达标准。