论文题目:AerialVL: A Dataset, Baseline and Algorithm Framework for Aerial-Based Visual Localization With Reference Map
摘要
视觉定位在无人机 (UAV) 的自主飞行中发挥着至关重要的作用,特别是在全球导航卫星系统 (GNSS) 无法识别的环境中。现有的基于航空的视觉定位方法主要集中于消除数据库地图和捕获帧之间的图像差异。然而目前缺乏公共数据集和方法比较基线,阻碍了基于航空的视觉定位的发展。为了解决这个问题,文章构建了一个大规模数据集 AerialVL,该数据集是使用无人机在不同高度、不同路线和不同时间段飞行时收集的。 AerialVL 由 11 个图像序列组成,覆盖约 70 公里的轨迹,并包括与飞行区域相对应的参考卫星图像数据库。作者使用 AerialVL 数据集首次对针对航空视觉定位设计的各种主流解决方案进行了全面评估。该评估包括视觉位置识别、视觉对准定位和视觉里程计作为比较基线。此外还提出了一个通用的基于航空的视觉定位框架,它统一了各种方法并将它们集成到模块化架构中,所提出的框架在所有飞行轨迹中相对于现有方法实现了更高的定位精度和鲁棒性。
Part. 01 研究贡献
- 本文构建了一个大规模的基于无人机的视觉定位数据集 AerialVL,该数据集涵盖了多样化的场景,涉及不同飞行高度、大范围尺度以及地形变化。
- 本文将基于无人机的视觉定位方法分为三类:视觉位置识别(Visual Place Recognition, VPR)、视觉对准定位(Visual Alignment Localization, VAL) 和 视觉里程计(Visual Odometry, VO)。AerialVL 提供了一个基准评测平台,对上述三类方法进行了全面的性能评估,是首个对这三种基准方法进行评估的无人机数据集。
- 将多种现有方法整合到本文提出的统一的架构中,该框架在整段飞行中的成功定位率方面显著优于其他方法。该框架具有良好的扩展性,每个模块都可以独立更新,支持后续研究和改进。
Part. 02 模型结构
框架模型由三个部分组成:相对位姿估计、局部对齐定位和全局检索定位。在框架第一部分估计相邻帧之间的相对姿势。该相对位姿估计可以通过 VO、VIO 或简单地使用带有特征点的视觉跟踪来实现,结果将用于第二阶段的初始结果。在框架的第二阶段,首先评估无人机的当前状态是否已成功定位大致区域。如果有来自前一帧或 GNSS 的全球位置信息,可以使用第一阶段给出的相对姿态估计来累积先前定位的位置得到大致预测位置。接下来根据预测位置,提取目标地图块并将其与查询帧对齐,通过比对得到更准确的全局定位结果。在初始化过程中或定位失败的情况下,框架将进入第三阶段,该阶段会根据嵌入式特征数据库检索并验证候选位置。然后下一次迭代中恢复位置。如果对齐或检索过程不成功,则在下一个捕获的帧继续进行第三阶段全局检索过程,图 1 所示为 AerialVL 的总体框架。
Part. 03 数据集
AerialVL 数据集
- 包含各种地形类型、多个飞行高度、多个飞行轨迹和显著的光照变化。数据集的详细信息分为几个部分:传感器平台、数据集特征和评估方法。
- AerialVL 中的整个飞行覆盖范围约为 20 平方公里,与现有数据集相比,包含更多样的飞行轨迹。飞行路径涵盖道路、建筑物、水池、农田等各类场景。AerialVL 还包含同一航线、120 m 到 200 m 不同高度采集的飞行数据,表 1 为 AerialVL 与其它数据集对比。
- 针对 VPR 包含 18361 个带有 GNSS 标签的独立图像和 14096 个裁剪后的相应地图补丁,针对 VAL 任务包含 11 个飞行序列(5 个小于 5 公里,6 个大于 5 公里),分别用于训练全局检索定位与相对位置定位能力,图 2 为 AerialVL 数据集内容示例。
表 1:AerialVL 与其它数据集对比
图 2:AerialVL 数据集内容示例
Part. 04 实验结果
在 VPR 任务中使用 AerialVL 数据集对比了 VGG16、ResNet50 和 ResNet101 三个骨干网络分别使用 NetVLAD 和 GeM 两个聚合模型的检索性能,得到结果表示在使用 VGG16 网络和 GeM 聚合时运行时间最短,使用 ResNet101 网络和 GeM 聚合时在 Recall@10 效果最好,在表量化排序后的前 10 个相似地图块中正确检索到查询帧的百分比达在 50m 和 100m 两种情况中分别达到 72.5% 和 83.5%,表 2为不同骨干网和聚合模型的检索性能对比。
表 2:不同骨干网和聚合模型的检索性能对比
随后也针对不同的主流描述符提取方法得到召回率和运行时间进行对比,其中端到端方法能在较少运算时间下在不同召回率上仍能保持较高的准确度,图 3 为各描述符的提取时间及运算后的召回率对比。
图 3:各描述符的提取时间及运算后的召回率对比
在 VAL 任务中对不同的相对位置估计算法在 AerialVL 数据集上进行评估,使用收敛轨迹内的平均定位误差(MLE)、收敛轨迹长度(CTL)和运算时间指标评估各个方法,得到结果显示通过预训练的 MCL 方法在运算时间上花费最少,而 DLK 方法在收敛轨迹长度上表现较其它方法有明显优势,表 3 为各方法在长序列、短序列与运行时间对比。
表 3:各方法在长序列、短序列与运行时间对比
Part. 05 研究展望
本文介绍了一个用于基于航空的视觉定位的新数据集 AerialVL,它具有多个具有多样性的飞行轨迹,包括各种地形、多个飞行高度和照明变化。基于该数据集,作者对不同的视觉定位方法进行了评估,并提出了涉及基于航空的视觉定位问题的所有类别方法的测试基线。为了实现更稳健和准确地定位,作者还提出了一个集成各种定位方法的通用定位框架,该通用框架将有助于未来基于航空的视觉定位的研究和开发。