A Novel Iterative -Adaptive Dynamic Programming for Discrete-Time Nonlinear Systems

A Novel Iterative -Adaptive Dynamic Programming for Discrete-Time Nonlinear Systems ,2014,Qinglai Wei, Member, IEEE, and Derong Liu, Fellow, IEEE

对无限时域离散时间非线性确定性系统提出迭代θ\thetaθADP技术求解最优控制问题。该算法避免策略迭代PI算法需要初始可容许控制的条件。提出新的证明方法由迭代θ\thetaθADP算法得到的迭代控制能稳定非线性系统,即迭代θ\thetaθADP算法对在线或离线都是可行的。性能指标函数收敛性分析保证迭代性能指标函数将单调收敛到最优值。神经网络近似性能指标函数并计算最优控制策略。
核心思想为构建初始正定价值函数集合满足以下,选择不同的θ\thetaθ值执行值函数初始化
在这里插入图片描述

Definition1给出初始任意正定函数
在这里插入图片描述
则初始性能指标函数V0=θΨ(xk)V_0=\theta\varPsi(x_k)V0=θΨ(xk)θ\thetaθ为正常数,则得到初始迭代控制策略。迭代θ−ADP\theta-ADPθADP算法如下
在这里插入图片描述
标准的HJB方程求解得到的性能指标函数是唯一的,而以上迭代ADP在每次迭代下,性能指标函数都不相同。同理标准HJB方程求得最优控制策略,而以上迭代ADP每次迭代下,迭代控制策略都不相同。
Lemma1给出迭代ADP迭代性能指标函数和迭代控制策略,迭代值函数可表示为
在这里插入图片描述
最优值函数由迭代值函数替代,一般来说迭代值函数更新所得不是最优的。
Lemma2给出任意控制策略下定义辅助值函数
在这里插入图片描述
Λ0(xk)=V0(xk)=θΨ(xk)\begin{aligned}\Lambda_0(x_k)=V_0(x_k)=\theta\Psi(x_k)\end{aligned}Λ0(xk)=V0(xk)=θΨ(xk),则Vi(xk)≤Λi(xk).\begin{aligned}V_i(x_k)\leq\Lambda_i(x_k).\end{aligned}Vi(xk)Λ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值