AerialVLN:基于门控循环单元(GRU)和跨模态注意力的无人机视觉语言导航模型

前言

此工作的主要贡献:

(1)提出一种无人机视觉语言导航数据集,收集25个不同的城市级环境,涵盖市中心、工厂、公园和村庄等各种场景,包括870多种不同类型的对象,总共8446条飞行路径,每条路径与注释中的3条指令对齐,子路径与子指令对齐,每条指令中最多有83个单词,涉及4470个词汇;
 
(2)提出一种起始基线模型,该模型基于门控循环单元(GRU)和跨模态注意力CMA。


一、数据集收集

1.1 收集背景

空中导航与地面导航的不同之处:

(1)空中导航空间行动更大,需要额外考虑上升、下降等动作;

(2)空中的室外环境更大,也更复杂;

(3)空中导航需飞行的路径更长;

(4)在空中飞行必须学会避免被3D空间中的物体卡住。


1.2 收集策略

数据收集过程包含两个主要步骤:路径生成和指令收集:

1.2.1 路径生成的方式:

(1)由人类操作员完成飞行,从而完成采集;

(2)路径生成的输出包括一系列带时间戳的6-DoF多旋翼姿态,然后将路径离散化为元动作,如“左转”和“前进”以进行训练

1.2.2 指令收集的方式:

(1)展示无人机飞行的视频,要求注释器给出自然语言命令;

(2)为了丰富语言多样性并减少偏见,每个视频都由三个注释者分别注释;

(3)为了验证数据质量,所有收集到的指令都由另一组工作人员手动检查。


1.3 数据集结构

下图展示了AerialVLN/AerialVLN-S数据集和其他数据集的比较:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值