
主要贡献
-
论文开发了自动化工具链OpenFly,用于生成空中视觉语言导航的数据,集成了多种渲染引擎,能够高效地生成多样化和高质量的数据。
-
构建了包含10万个轨迹的大规模空中视觉语言导航数据集,覆盖了18个不同的场景,提供了丰富的环境多样性。
-
提出了基于关键帧感知的空中视觉语言导航模型OpenFly-Agent,能够有效地处理视觉冗余并提高导航性能。
-
通过广泛的实验,验证了所提方法和数据集的有效性,并建立了空中视觉语言导航任务的基准,展示了其在多个任务上的优越性能。

研究背景
1. 研究问题
室内视觉语言导航(VLN)已经被广泛研究,而室外空中VLN仍然是一个未被充分探索的领域。
主要原因在于室外空中视野覆盖范围广,数据收集更具挑战性,导致缺乏基准数据集。
因此,论文主要解决的问题是如何在室外空中环境中进行VLN。
2. 研究难点
该问题的研究难点包括:
-
数据多样性不足、数据收集效率低、数据规模小;
-
现有的方法依赖于AirSim和Unreal Engine(UE),限制了数据的多样性;
-
数据收集过程依赖飞行员操作无人机并在模拟器中进行手动标注,效率低下且难以扩展;
-
当前的数据集规模较小,仅有约10k条轨迹,远不及其他领域的数据集。
3. 相关工作
-
模拟器用于具身AI:
-
介绍了多种用于具身AI研究的模拟器,如MuJoCo、Habitat、PyBullet、Matterport3D、OpenAI Gym和Isaac Gym。
-
这些模拟器主要用于室内机器人操作和导航,而不适合空中视觉语言导航(VLN)任务。
-
Gazebo和AirSim是常用的无人机模拟器,但存在兼容性和维护问题。
-
-
视觉语言导航数据集:

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



