【论文复现】Safe Exploration in Model-based Reinforcement Learning using Control Barrier Functions

最新推荐文章于 2025-03-09 23:58:31 发布

原创

最新推荐文章于 2025-03-09 23:58:31 发布 · 2.6k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #matlab #算法

记录一下近期的思考和工作，同时也希望督促自己不要懈怠。
有疑问的地方大家一起讨论，有不正确的地方大家积极指正。

论文简述

2021年挂在ArXiV上面的一篇文章。
文章的主要创新点在于：将ADP和CBF函数结合，用于实现在线的状态约束最优控制。作者还有一篇文章是CDC2020的，也是考虑ADP和CBF的结合，不过CDC那篇文章主要是将关于状态约束的Barrier Function 放到ADP的rewardfunction里面，而这篇文章是将safe control 和ADP的control分开来设计的，并分析了系统的稳定性。注意：CBF文献里大多是作为QP求解的约束条件来设计控制器，一般不能证明稳定性，现在也开始有一些文献提供了理论分析。

文章动机

ADP和CBF的结合很少，控制系统的状态约束一般是用barrier function，最早的ADP-CBF算法是我上一篇文章提到的，不过那是用off-policy PI计算的。

绪论里面最需要注意的一段话：
To this end, we propose a new class of CBFs based on the Lyapunov-like barrier functions studied in [11], termed Lyapunov-like CBFs (LCBFs), that retain the important properties of CBFs for making safety guarantees while possessing desirable Lyapunov-like qualities that become useful when studying system stability. Inspired by approaches such as [6]

文章根据以上的动机提出了LCBF函数，这也是文章的难点，有几个疑问：
1、这样将安全控制器和最优控制器分开计算，为什么还是能保证安全稳定性。虽然文章提供了理论分析，但我