目录
2024 IEEE International Conference on Robotics and Automation (ICRA)
主要创新点:提出了一种新的高效节能路径规划框架 AGRNav, 部署在 AGR 上的轻量级语义场景补全网络 (SCONet) 执行快速推理以准确预测障碍物分布和语义。
- AGRNav 是有效的。AGRNav 在遮挡环境中实现了 98% 的成功率,同时在将预测结果更新为网格图方面也处于低延迟。
- AGRNav 是节能的。通过提前预测障碍物分布,大大减少了不必要的空中路径,与基线相比,能耗降低了 50%。
- SCONet 是轻量级和准确的。SCONet支持实时(即20 FPS)和准确的推理,并在SemanticKITTI基准上实现了最先进的性能(IoU = 56.12)。
[Code]: https://github.com/jmwang0117/AGRNav
[Paper]: https://ieeexplore.ieee.org/document/10610829
Abstract
空地机器人卓越的机动性和长续航能力引起了人们对它们在复杂环境(如森林和大型建筑物)中导航的兴趣。然而,这种环境往往包含闭塞和未知的区域,在现有的基于映射和基于学习的导航方法下,由于没有对未观察到的障碍物进行准确的预测,空地机器人的运动往往会出现次优轨迹。在这项工作中,我们提出了 AGRNav,一个旨在寻找安全和节能的空-地混合路径的新框架。AGRNav包含一个轻量级的语义场景完成网络(SCONet),具有自注意力机制,通过捕获上下文信息和遮挡区域特征来实现准确的障碍物预测。该框架随后采用基于查询的方法将预测结果低延迟地更新到网格图。最后,基于更新后的地图,分层路径规划器高效搜索节能路径进行导航。我们通过模拟和现实环境中的基准测试验证了AGRNav的性能,证明了其优于经典和最先进的方法。其开源代码可从https://github.com/jmwang0117/AGRNav获得。
I. INTRODUCTION
现有的基于映射的方法(mapping-based)方法使用传感器(如相机或激光雷达)构建局部占用网格图和欧氏符号距离场(ESDF)地图[7]进行快速路径规划。然而,由于传感器的限制只感知可见的障碍物(在图1a中),构建的地图排除了遮挡区域的障碍物,这增加了碰撞的风险,导致不必要的空中路径的能量消耗更高。
现有的基于学习的方法(learning-based)方法采用语义场景补全网络进行遮挡区域的障碍物分布预测,然后使路径规划器能够减少不必要的路径,以实现节能。一些网络使用3D卷积[11]来提高预测精度;然而,它们的内存密集型性质和高推理延迟使它们不适合实时机器人应用。虽然一些工作[12]、[13]侧重于开发轻量级网络并在实时推理方面取得了成功,但网络捕获特征和上下文信息的能力有限,使其预测精度显着下降。此外,解决更新延迟问题也很重要,因为延迟可能会导致路径规划器忽略预测的障碍物分布,从而导致与基于映射的方法类似的问题。
为了解决内存密集型网络的高推理延迟和轻量级网络的低预测精度,因为它们无法捕获有用的特征,我们的主要观察结果是将轻量级卷积和自我注意机制集成到网络中。前者允许网络在机器人设备上执行实时推理任务,而后者增强了网络学习长距离依赖和捕获上下文信息的能力,有利于提高预测的准确性。此外,针对现有方法依赖于地图合并导致占用体素重复更新的更新延迟问题,一种可能的方法是在扫描后仅查询和更新空闲体素的占用状态,以确保低延迟。
基于上述观察,我们提出了一种新的高效节能路径规划框架 AGRNav。该框架由两个关键组件组成,第一个是部署在 AGR 上的轻量级语义场景补全网络 (SCONet),并执行快速推理以准确预测障碍物分布和语义。SCONet 使用深度可分离卷积 [14] 而不是 3D 卷积处理 3D 体素网格,这大大减少了计算量。此外,为了使 SCONet 能够捕获丰富而密集的上下文信息以及遮挡区域的特征,它集成了两种自注意力机制。这保持了网络的轻量级,同时增强了其特征提取能力(图1b)。
分层路径(即空中和地面路径)规划器(在图 2 中)利用基于查询的方法进行低延迟占用更新。通过对SCONet的准确预测,在搜索包含扫描和预测障碍物的更新地图上的路径时,规划器最小化碰撞和能量消耗。此外,它使用预测的语义为机器人提供速度补偿,允许在可通行区域(例如道路)中进行加速。模拟和真实世界的实验表明,AGRNav能够在遮挡倾向的环境中搜索安全和节能的路径。以下是本文的主要贡献:
- AGRNav 是有效的。AGRNav 在遮挡环境中实现了 98% 的成功率,同时在将预测结果更新为网格图方面也处于低延迟。
- AGRNav 是节能的。通过提前预测障碍物分布,大大减少了不必要的空中路径,与基线相比,能耗降低了 50%。
- SCONet 是轻量级和准确的。SCONet支持实时(即20 FPS)和准确的推理,并在SemanticKITTI基准上实现了最先进的性能(IoU = 56.12)。
II. RELATED WORK
A. Autonomous Navigation of Air-Ground Robots 空地机器人自主导航
扩大对 AGR 适应性和多功能性的兴趣导致了该领域的研究和创新激增。尽管许多研究人员优先考虑机械结构设计 [2]-[5] 以最小化重量和体积,但重要的是要承认建立一个高效且节能的导航框架,使 AGR 在复杂环境中导航具有更大的意义。尽管如此,目前空地机器人导航框架仍有改进和进一步研究的空间。例如,[5]提出了空地路径规划工作,但由于缺乏轨迹细化方法,得到的轨迹缺乏平滑性和动态可行性。[4]提出了一种节能、快速的自主导航框架,但其“攻击性”规划策略在导航复杂和遮挡区域时增加了碰撞的风险。
B. Navigation in Predicted Maps 预测地图中的导航
通过预测遮挡区域的障碍物分布,具有低碰撞概率和能量节省的自主导航在最近的研究中显示出有希望的结果。然而,现有的方法在复杂环境和高速导航场景中面临着局限性。例如,[15] 引入了新颖的感知算法和一个控制器,它结合了预测的占用图进行高速导航。尽管该方法具有潜力,但由于场景设计简单、地图更新频率较低(≈3 Hz),该方法难以处理复杂和障碍物密集的环境。类似地,[16] 采用基于条件神经过程的网络来预测地图轮次,但依赖于未知环境中运动规划的启发式方法。这导致贪婪且低效的轨迹,而不考虑未观察到的环境的结构。最后,[12] 提出了 OPNet,这是一种预测用于路径规划的占用网格并在简单环境中表现良好的方法。然而,该方法在大规模遮挡场景中面临挑战,因为它的网络不具备捕获遮挡区域的特征和上下文信息的能力。
C. Semantic Scene Completion and Occupancy Mapping 语义场景补全和占用映射
视场较窄的机器人传感器,如激光雷达和深度相机,难以监测遮挡区域。大多数使用有限传感器数据预测遮挡区域占用率的研究都集中在语义场景补全方法上。值得注意的作品包括 Song 等人的 SSCNet [10],它使用深度图像来预测体素的占用和语义。Cao 等人的 Monoscene [8],只需要单目 RGB 图像,并利用一种新颖的 2D-3D 特征投影桥来预测体素的占用和语义。然而,由于Monoscene[8]和VoxFormer的[9]GPU内存在推理过程中超过10 GB,这些内存密集型方法不适合机器人设备上的实时推理。
III. SYSTEM OVERVIEW
图 2 说明了所提出的框架 AGRNav,具有一些关键组件:
(1) 轻量级语义场景完成网络 SCONet(第 IV 节);
(2) 基于查询的低延迟占用更新方法(第 V-A 节);
(3) 分层路径规划器(第 V-B 节)在包含扫描障碍物和预测障碍物的更新地图上搜索空地混合路径。
IV. SEMANTIC SCENE COMPLETION NETWORK
A. SCONet Network Structure
B. Two GPU Memory-Efficient Self-attention Mechanisms
略
V. SAFE AIR-GROUND HYBRID PATH PLANNER
分层路径规划器建立在Zhang等人 [4] 提出的地空一体化基础上,巧妙地融合了基于查询的占用更新机制、动力学轨迹搜索方法和基于梯度的样条优化器。我们的分层规划器促进了节能混合轨迹的创建,提高了整体规划效率。
A. Query-Based Low-Latency Occupancy Update 基于查询的低延迟占用更新
SCONet网络生成一个预测的占据栅格地图,其中包含已占用体素和空闲体素。通常,该地图与基于扫描的占据栅格地图合并,以构建用于规划的ESDF地图。此合并操作的时间复杂度为O(N),其中N为体素数,因为它需要遍历和组合来自两个网格地图的信息。为了实现高效导航和避障,提出了一种基于查询的低时延更新方法。其中, f ( x , S p r e d ) f (x, S_{pred}) f(x,Spred) 表示查询操作,检查体素 x x x是否存在于预测的已占据体素集合 S p r e d S_{pred} Spred内。如果预测 x x x被占用(即 x ∈ S p r e d x∈S_{pred} x∈Spred),则 f ( x , S p r e d ) = o c c u p i e d f (x, S_{pred}) = \mathrm{occupied} f(x,Spred)=occupied,否则 x x x的状态保持free。该方法通过关注 M ≤ N M≤N M≤N的相关自由体素,将时间复杂度降低到 O ( M ) O(M) O(M) 。
S updated ( x ) = { occupied , if f ( x , S pred ) = occupied free , otherwise S_{\text{updated}}(x) = \begin{cases} \text{occupied}, & \text{if } f(x, S_{\text{pred}}) = \text{occupied} \\ \text{free}, & \text{otherwise} \end{cases} Supdated(x)={occupied,free,if f(x,Spred)=occupiedotherwise
B. Efficient and Energy-saving Hierarchical Path Planner 高效节能的分层路径规划器
与Fan等人[5]的粗路径搜索方法不同,我们还进一步优化了轨迹(包含地面和空中轨迹),即将轨迹设置为 p b p_b pb度的均匀B-spine,控制点 P = P 0 , P 1 , P 2 , . . . , P N \mathbf{P} ={\mathbf{P}_0, \mathbf{P}_1, \mathbf{P}_2, ..., \mathbf{P}_N} P=P0,P1,P2,...,PN。其中,轨迹的优化与生成主要分为地面轨迹和空中轨迹。在优化地面轨迹时,我们假设AGR在平坦的地面上运动,所以我们只需要考虑二维运动控制点,记为:
P g = P t 0 , P t 1 , P t 2 , P t 3 , . . . , P t M − 1 , P t M \mathbf{P}_g = {\mathbf{P}_{t0}, \mathbf{P}_{t1}, \mathbf{P}_{t2}, \mathbf{P}_{t3}, ... , \mathbf{P}_{tM − 1 }, \mathbf{P}_{tM} } Pg=Pt0,Pt1,Pt2,Pt3,...,PtM−1,PtM
其中 P t i = ( x t i , y t i ) , i ∈ [ 0 , M ] \mathbf{P}_{ti} = (x_{ti}, y_{ti}), i∈[0,M] Pti=(xti,yti),i∈[0,M]。同时,空中轨迹控制点记为: P a \mathbf{P}_{a} Pa。我们还使用Zhou et al.[7]设计的以下成本项来细化轨迹:
f 1 = λ s f s + λ c f c + λ f ( f v + f a ) f_1 = λ_s f_s + λ_c f_c + λ_f (f_v + f_a) f1=λsfs+λcfc+λf(fv+fa)
其中 λ s , λ c , λ f λ_s, λ_c, λ_f λs,λc,λf是每个代价项的权值。 f s , f c , f v , f a f_s, f_c, f_v, f_a fs,fc,fv,fa是平滑度、碰撞代价、速度和加速度的软限制。我们设置AGR在地面模式下移动,其速度与偏航角平行。另外,考虑到我们的AGR采用Akaman结构,如果轨迹太弯曲,将会产生巨大的误差,所以我们在 P g \mathbf{P}_g Pg上强制施加代价来限制地面轨迹的曲率,在 P t i \mathbf{P}_{ti} Pti处的曲率定义为:
C i = Δ β i P t i C_i = \frac{\Delta \beta_{i}}{\mathbf{P}_{ti}} Ci=PtiΔβi
Δ β i = ∣ tan − 1 ( Δ y t ( i + 1 ) Δ x t ( i + 1 ) ) − tan − 1 ( Δ y t i Δ x t i ) ∣ \Delta \beta_i = \left| \tan^{-1}\left(\frac{\Delta y_{t(i+1)}}{\Delta x_{t(i+1)}}\right) - \tan^{-1}\left(\frac{\Delta y_{ti}}{\Delta x_{ti}}\right) \right| Δβi= tan−1(Δxt(i+1)Δyt(i+1))−tan−1(ΔxtiΔyti)
因此,该代价可表示为:
f n = ∑ i = 1 M − 1 F n ( P t i ) f_n = \sum^{M-1}_{i=1} F_{n}(\mathbf{P}_{ti}) fn=i=1∑M−1Fn(Pti)
最后,将总体目标函数表述为:
f t o t a l = λ s f s + λ c f c + λ f ( f v + f a ) + λ n f n f_{total} = λ_s f_s + λ_c f_c + λ_f (f_v + f_a) + λ_n f_n ftotal=λsfs+λcfc+λf(fv+fa)+λnfn
我们使用非线性优化求解器 N L o p t 2 NLopt^2 NLopt2来解决这个优化问题。路径规划完成后,根据当前时间戳在生成的轨迹上选择一个设定值,然后发送给控制器。空中和地面设定值的设置和选择与[4]相同。
VI. EXPERIMENTS
我们通过在两个模拟环境中将其与两种基于映射(mapping-based)的方法和一种基于学习 (learning-based) 的方法进行比较来评估 AGRNav 的改进。此外,我们使用自定义机器人在三个复杂的现实场景中测试了 AGRNav,展示了它在实际导航中的节能优势。通过记录 AGR 在驾驶和飞行中每秒的平均能耗,我们还在模拟测试中建立了能源使用评估的基础。最终,我们分析了 SCONet 在 SemanticKITTI 数据集上的准确性和实时性能。
A. Simulated Air-Ground Robot Navigation 模拟空地机器人导航
模拟实验装置包括一个 20m×20m×5m正方形房间和一个3m×30m×5m走廊,这些走廊充满了随机障碍物,导致整个场景中的许多遮挡空间和未知区域。空地机器人必须从起点导航到目的地,最大速度不超过 2.5 m/s。定量结果。我们对 AGRNav 导航框架与方形房间和走廊场景中的两种基于映射和一种基于学习的导航方法进行了比较分析。在100次不同障碍物放置的试验中,我们记录了所有4种方法的**平均行进时间、长度和成功率(即无碰撞)**。特别是,四种方法的能量消耗是使用我们定制的机器人在真实环境中飞行和行驶时每秒消耗的能量来计算的(表2)。表1显示,我们的AGRNav优于其他三种方法,实现了最高的成功率(即98%),因为我们的网络(SCONet)预测了更广泛的遮挡区域范围(如图4d),并生成了最低碰撞率的路径。
此外,我们的框架大大减少了冗余路径,并将能量消耗减少了一半(即,每秒平均消耗为434.55 W)。这一效率源于SCONet的准确预测,最大限度地减少了耗能的空中路径,有利于低能的地面路径。在走廊场景中,虽然[4]的平均旅行时间较短 (即16.97 s),但由于无法预测遮挡区域和对空中路径的依赖较大,其平均能耗较高。
B. Real-world Air-Ground Robot Navigation 真实世界的空地机器人导航
C. Semantic Scene Completion Network (SCONet) 语义场景补全网络
略
Ⅶ. CONCLUSIONS
在本文中,我们介绍了 AGRNav,这是一种高效且节能的空地机器人的自主导航框架,具有关键组件 SCONet,它在预测精度和推理时间方面优于最先进的模型。此外,通过基于查询的低延迟更新方法改进的分层路径规划器考虑遮挡区域中的障碍物来生成路径。这种方法不仅最小化了碰撞风险,而且通过降低高能航空路径,比基线降低了 50% 的能源消耗。该系统的鲁棒性已通过模拟和现实世界环境中的实验得到广泛验证。