Discrete-Time Local Value Iteration Adaptive Dynamic Programming: Convergence Analysis,2018 ,Qinglai Wei, Member, IEEE, Frank L. Lewis, Life Fellow, IEEE, Derong Liu, Fellow, IEEE, Ruizhuo Song, Member, IEEE, and Hanquan Lin
分析离散时间的局部值函数ADP算法,初始任意半正定值函数,利用状态依赖学习函数,第一次将迭代值函数和迭代扩展策略更新为状态空间中的子集,而不是整个状态空间,有效减轻计算。提出新的收敛性分析方法,证明在一定约束条件下,迭代值函数收敛到最优。给出局部值迭代ADP算法的单调性,在初值函数和学习率函数下,迭代值函数能单调收敛到最优。
以往文章中值迭代和控制策略迭代是在整个状态空间下更新,被称为global iterative ADP algorithms。实际应用中,系统数据难以在整个状态空间下迭代。迭代值函数和迭代控制策略通常为非线性近似结构,需要大量数据。传统全局值迭代算法是局部值迭代算法的特殊情况。在不同初始条件下,迭代值函数为单调不增、单调不减和无单调性。

初始任意半正定函数,使值函数V0(xk)=ΨV_0(x_k)=\varPsiV0(xk)=Ψ,得到初始的局部迭代控制策略为

同理局部迭代值函数更新为

定义全局迭代值函数

而传统的全局值迭代ADP算法中,学习率函数α=1\alpha=1α=1,整个状态空间的状态数据需要更新迭代值函数和迭代控制策略。
Lemma1给出迭代值函数和迭代控制策略下,迭代值函数正定性和半正定条件。
Theorem1给出迭代值函数和迭代控制策略下,学习率函数,最终迭代值函数收敛到最优性能指标函数。

每次迭代在系统状态在状态空间的一个子集下,得到状态空间子集下的状态数据。
Theorem2给出存在两个学习率函数,

迭代控制策略学习率函数2最小收敛率大于学习率函数1。
Theorem3给出迭代值函数和迭代控制策略下,学习率函数满足0<α0(xk)≤10<\alpha_0(x_k)\leq10

最低0.47元/天 解锁文章
2132

被折叠的 条评论
为什么被折叠?



