ADP-Based Optimal Control for Discrete-Time Systems With Safe Constraints and Disturbances

ADP-Based Optimal Control for Discrete-Time Systems With Safe Constraints and Disturbances,2024, Jun Ye , Hongyang Dong , Yougang Bian , Member, IEEE, Hongmao Qin, and Xiaowei Zhao , Member, IEEE

对受约束和干扰的离散时间系统提出新的ADP方法求解最优控制问题,安全策略迭代方法,将原策略提升转变为具有指定状态代价函数的限制最优化问题,以处理状态和输入限制。actor-ctitic-distutbance框架,处理受输入和状态限制的最优控制问题。抗干扰性的鲁棒安全性视为two-player零和博弈,actor和disturbance神经网络近似最优控制输入和干扰策略disturbance policy。

处理受限制的最优控制问题以保证被控系统的安全,传统ADP寻找最优解过程中难以同时管理状态和控制输入的约束。存在外部扰动导致控制对象偏离安全区域,则必须加以约束来寻求最优控制策略。

输入约束通常与执行器操作限制有关,而状态约束通常与自定义的安全区域有关。控制输入限制可以通过修改效用函数形式或actor网络中加入特定的饱和函数。忽略状态约束可能导致性能不佳,降低实际安全性。软限制指实际情况下一些安全约束通常不严格,但某些安全限制必须保持在安全范围内,因此需权衡安全性和最优性。

提出基于PI的SADP(安全自适应动态规划)方案,考虑状态和控制输入约束寻找最优控制。与其他文献相比将障碍函数(embed barrier functions)加入到性能函数中,以权衡最优性和安全性。

将受扰动的最优控制问题转化为two-player零和博弈问题,在非合作博弈问题下,一般方法仅将干扰视为与最优控制策略相互作用的附加策略,而状态和输入约束在整个博弈过程始终存在。保证寻找受扰动影响的最优控制策略,控制对象偏离安全区域的情形能得到有效约束,分析SADP在干扰作用的收敛特性。

在没有或具有准确的模型信息情况下,突出在处理实际情况下的鲁棒性。通过利用模型信息获得控制对象的未来状态。当面对不可用或不准确的模型信息,利用数据驱动,摆脱对模型的依赖。

值函数或代价函数加入扰动策略
在这里插入图片描述
β\betaβ为正常数,表示对干扰的抗性
在这里插入图片描述
考虑扰动的最优控制问题视为two-player零和博弈问题,最坏的干扰为

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值