自适应动态规划硕士博士论文学习

本文探讨了自适应动态规划在处理外部扰动、安全性和层级最优控制等问题上的方法,包括事件触发控制器设计、安全性能指标函数、Stackelberg博弈下的策略优化以及无模型系统的跟踪控制。文章还涉及神经网络、李雅普诺夫稳定性分析和强化学习的融合,展示了在无人船控制中的应用,但也指出了一些挑战和未来研究方向。

基于自适应动态规划的非线性系统最优控制-南邮硕毕

主要内容:

  1. 外部扰动下,基于事件触发自适应动态规划。设计触发阈值,由评价网络近似性能指标函数,两个动作网络分别逼近控制输入和外部扰动。
  2. 外部扰动和状态约束下,基于安全自适应动态规划的最优控制策略。设计障碍函数保证系统安全性和最优性,包含障碍函数CBF的性能指标函数。
  3. 分层博弈优化控制问题,两个HJB方程的耦合形式,求解两个玩家的最优控制策略,不仅系统稳定,而且构成Stackelberg均衡策略。

事件触发控制器

定义在外部扰动下,事件触发控制器的设计。
在这里插入图片描述
事件触发控制系统渐进稳定性。李雅普诺夫函数描述以确定系统的一致渐进稳定性
Zeno芝诺行为是在事件触发控制,控制在有限时间内被无限次触发。事件触发机制使得离散时间系统中的采样时间间隔总是时间的整数倍。保证最小采样时间等于中间采样时间,Zeno行为不会发生。
神经网络设计

安全ADP

不等式约束形成安全集合,可容许状态空间。
定义障碍函数BF
在这里插入图片描述
在性能指标函数中加入CBF函数,CBF性质
在这里插入图片描述
选择CBF函数
在这里插入图片描述
引入后,对安全性和最优性权衡。安全性分析:性能指标函数存在性,CBF有界性,基于HJB方程的最优控制策略和最坏扰动策略

以上条件事件触发框架设计,则事件触发控制策略和扰动策略改为,根据正定值函数的李雅普诺夫函数证明渐进稳定
神经网络求解最优控制策略和最坏扰动策略,考虑重构误差。哈密顿函数近似,权重更新,梯度最速下降法,更新权重向量,权重更新

层级最优控制

二人非线性系统Stackelberg博弈最优控制
Stackelberg博弈为非合作博弈模型,领导者需要考虑到追随者的反应,并做出最优的决策,以最大化自己的利益。追随者需要根据领导者的决策做出自己的最优决策,但是追随者的决策对领导者的决策没有影响。

带饱和执行器系统,带输入约束的各参与者的性能指标函数
在这里插入图片描述
基于领导者策略,追随者的最优控制策略可得,由哈

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值