前言
此工作的主要贡献:
(1)提出一种无人机视觉语言导航数据集,收集25个不同的城市级环境,涵盖市中心、工厂、公园和村庄等各种场景,包括870多种不同类型的对象,总共8446条飞行路径,每条路径与注释中的3条指令对齐,子路径与子指令对齐,每条指令中最多有83个单词,涉及4470个词汇;
(2)提出一种起始基线模型,该模型基于门控循环单元(GRU)和跨模态注意力CMA。
一、数据集收集
1.1 收集背景
空中导航与地面导航的不同之处:
(1)空中导航空间行动更大,需要额外考虑上升、下降等动作;
(2)空中的室外环境更大,也更复杂;
(3)空中导航需飞行的路径更长;
(4)在空中飞行必须学会避免被3D空间中的物体卡住。
1.2 收集策略
数据收集过程包含两个主要步骤:路径生成和指令收集:
1.2.1 路径生成的方式:
(1)由人类操作员完成飞行,从而完成采集;
(2)路径生成的输出包括一系列带时间戳的6-DoF多旋翼姿态,然后将路径离散化为元动作,如“左转”和“前进”以进行训练
1.2.2 指令收集的方式:
(1)展示无人机飞行的视频,要求注释器给出自然语言命令;
(2)为了丰富语言多样性并减少偏见,每个视频都由三个注释者分别注释;
(3)为了验证数据质量,所有收集到的指令都由另一组工作人员手动检查。
1.3 数据集结构
下图展示了AerialVLN/AerialVLN-S数据集和其他数据集的比较: