Discrete-Time Local Value Iteration Adaptive Dynamic Programming: Convergence Analysis

Discrete-Time Local Value Iteration Adaptive Dynamic Programming: Convergence Analysis,2018 ,Qinglai Wei, Member, IEEE, Frank L. Lewis, Life Fellow, IEEE, Derong Liu, Fellow, IEEE, Ruizhuo Song, Member, IEEE, and Hanquan Lin

分析离散时间的局部值函数ADP算法,初始任意半正定值函数,利用状态依赖学习函数,第一次将迭代值函数和迭代扩展策略更新为状态空间中的子集,而不是整个状态空间,有效减轻计算。提出新的收敛性分析方法,证明在一定约束条件下,迭代值函数收敛到最优。给出局部值迭代ADP算法的单调性,在初值函数和学习率函数下,迭代值函数能单调收敛到最优。

以往文章中值迭代和控制策略迭代是在整个状态空间下更新,被称为global iterative ADP algorithms。实际应用中,系统数据难以在整个状态空间下迭代。迭代值函数和迭代控制策略通常为非线性近似结构,需要大量数据。传统全局值迭代算法是局部值迭代算法的特殊情况。在不同初始条件下,迭代值函数为单调不增、单调不减和无单调性。
在这里插入图片描述
初始任意半正定函数,使值函数V0(xk)=ΨV_0(x_k)=\varPsiV0(xk)=Ψ,得到初始的局部迭代控制策略为
在这里插入图片描述
同理局部迭代值函数更新为
在这里插入图片描述
定义全局迭代值函数
在这里插入图片描述
而传统的全局值迭代ADP算法中,学习率函数α=1\alpha=1α=1,整个状态空间的状态数据需要更新迭代值函数和迭代控制策略。
Lemma1给出迭代值函数和迭代控制策略下,迭代值函数正定性和半正定条件。
Theorem1给出迭代值函数和迭代控制策略下,学习率函数,最终迭代值函数收敛到最优性能指标函数。
在这里插入图片描述
每次迭代在系统状态在状态空间的一个子集下,得到状态空间子集下的状态数据。
Theorem2给出存在两个学习率函数,
在这里插入图片描述
迭代控制策略学习率函数2最小收敛率大于学习率函数1。
Theorem3给出迭代值函数和迭代控制策略下,学习率函数满足0<α0(xk)≤10<\alpha_0(x_k)\leq10

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值