上海AI实验室无人机视觉语言导航最新基准!OpenFly:空中VLN的全能工具链与大规模测试基准

主要贡献

  • 论文开发了自动化工具链OpenFly,用于生成空中视觉语言导航的数据,集成了多种渲染引擎,能够高效地生成多样化和高质量的数据。

  • 构建了包含10万个轨迹的大规模空中视觉语言导航数据集,覆盖了18个不同的场景,提供了丰富的环境多样性。

  • 提出了基于关键帧感知的空中视觉语言导航模型OpenFly-Agent,能够有效地处理视觉冗余并提高导航性能。

  • 通过广泛的实验,验证了所提方法和数据集的有效性,并建立了空中视觉语言导航任务的基准,展示了其在多个任务上的优越性能。

图片

研究背景

1. 研究问题

室内视觉语言导航(VLN)已经被广泛研究,而室外空中VLN仍然是一个未被充分探索的领域。

主要原因在于室外空中视野覆盖范围广,数据收集更具挑战性,导致缺乏基准数据集。

因此,论文主要解决的问题是如何在室外空中环境中进行VLN。

2. 研究难点

该问题的研究难点包括:

  • 数据多样性不足、数据收集效率低、数据规模小;

  • 现有的方法依赖于AirSim和Unreal Engine(UE),限制了数据的多样性;

  • 数据收集过程依赖飞行员操作无人机并在模拟器中进行手动标注,效率低下且难以扩展;

  • 当前的数据集规模较小,仅有约10k条轨迹,远不及其他领域的数据集。

3. 相关工作

  • 模拟器用于具身AI

    • 介绍了多种用于具身AI研究的模拟器,如MuJoCo、Habitat、PyBullet、Matterport3D、OpenAI Gym和Isaac Gym。

    • 这些模拟器主要用于室内机器人操作和导航,而不适合空中视觉语言导航(VLN)任务。

    • Gazebo和AirSim是常用的无人机模拟器,但存在兼容性和维护问题。

  • 视觉语言导航数据集

    评论
    成就一亿技术人!
    拼手气红包6.0元
    还能输入1000个字符
     
    红包 添加红包
    表情包 插入表情
     条评论被折叠 查看
    添加红包

    请填写红包祝福语或标题

    红包个数最小为10个

    红包金额最低5元

    当前余额3.43前往充值 >
    需支付:10.00
    成就一亿技术人!
    领取后你会自动成为博主和红包主的粉丝 规则
    hope_wisdom
    发出的红包
    实付
    使用余额支付
    点击重新获取
    扫码支付
    钱包余额 0

    抵扣说明:

    1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
    2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

    余额充值