【论文笔记】Safe Learning of Quadrotor Dynamics Using Barrier Certificates

本文介绍了一种利用屏障证书进行安全学习的方法,应用于部分未知环境下的四旋翼飞行器模型。通过高斯过程(GP)确保在学习过程中系统保持稳定,避免四旋翼坠毁。文章提出了自适应采样算法以降低计算成本,以及递归在线GP学习策略,用于三维非线性四旋翼动力学的在线学习。仿真结果验证了该方法的有效性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

2018 IEEE International Conference on Robotics and Automation (ICRA)
May 21

摘要

为了有效地控制复杂动力系统往往需要精确的非线性模型,但在实际运用中这些模型并不是已知的。
文章提出了一种基于高斯过程的数据流方法,该方法学习了部分未知环境下的四轴飞行器模型。(就是动力学模型部分未知)
问题的挑战在于,如果学习过程没有得到仔细的控制,系统就会变得不稳定,四轴飞行器可能会坠毁。
为了解决这个问题,使用障碍证书(barrier certificates)进行安全学习,它能够建立一个非保守的前不变安全区域,该区域基于高斯过程的统计提供了高概率的安全保证。设计了一种基于自适应采样方案的学习控制器,以有效地探索这些不确定状态并扩展安全区域。仿真结果验证了该方法的有效性。

introduction

屏障证书已成功应用于许多安全临界动力系统[12]、[18]、[19]。在本文中,构造了一个带有屏障证书的安全操作区域,并随着系统不确定性的降低而逐步扩大安全操作区域。
系统的未知动态用一个GP模型来表示,该模型同时提供了预测的均值和方差。利用GP模型的统计量,为模型不准确的系统提供了高概率的安全保障。**寻找最大容量障碍证书需要验证无限多个不等式约束,这在计算上非常昂贵。**受中离散采样技术的启发,设计了一种自适应采样算法来显著降低计算强度,即状态空间中确定区域越多,采样次数越少,不损失安全保证。
主要贡献有三方面:
首先,在障碍认证的基础上建立了一个安全的学习策略,它允许一组丰富的学习控制选项(不懂,啥选项?)。
其次,提出了一种自适应采样算法,大大降低了学习过程的计算强度。
第三,提出了一种基于GP的递归学习策略,用于复杂的三维非线性四旋翼动力学的在线学习。

PRELIMINARIES OF BARRIER CERTIFICATES AND GAUSSIAN PROCESS

A.障碍证书和集合不变式

  • 考虑一个系统: x ˙ \dot{x} x˙=f(x)+g(x)u
  • x 是系统状态,u是系统控制,f和g都是 Lipschitz 连续的(Lipschitz连续条件:函数的导数不能超过k,限制了一个连续函数的最大局部变动幅度。)
  • 将系统的安全集编码为光滑函数h:
    在这里插入图片描述
  • 如果存在一个楔函数k(x)(class-k function),能够使如下式子成立,那么函数h(x)就称为控制障碍函数(Control Barrier Function,CBF):
    在这里插入图片描述
  • 给定CBF, Barrier安全控制空间S(x)定义为:
    在这里插入图片描述
  • 文章引用了一个定理:给定了CBF h(x)和不变式区间,任何利普希茨连续的控制函数u,对这个系统呈现向前不变性。(不是很能理解?和我理解的向前不变性是一个东西吗)
    在这里插入图片描述
  • 然后他给了个小例子,说明李雅普诺夫分级集求出的安全区域没有障碍证书的大?文章主要解释了结果,理由是“这种类型的障碍证书通过允许h(x)在C内减少而不是严格增加,显著扩展了认证安全控制空间”= =不太明白。
  • 和利普希茨水平子集比较,障碍证书定义的安全概念更加宽松。然后用了一个例子来说明:
    在这里插入图片描述

B.高斯过程(GP)

  • GP是一种非参数回归方法,可以捕获复杂的未知函数。对于一个GP,状态空间中的每一个点都与一个正态分布的随机变量相关联,这使得我们可以得到关于系统的高概率陈述。(GP其实就是随机过程的一个特例,简单的说,就是一系列关于连续域(时间或空间)的随机变量的联合,而且针对每一个时间或是空间点上的随机变量都是服从高斯分布的,只要这个分布的均值和协方差确定了,我们就能确定这个高斯过程的表达形式,见这篇文章
  • 我们现在考虑一个动力学部分未知的系统d(x),并假设d(x)是李普希茨连续的: x ˙ \dot{x}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值