前言
此工作的主要贡献:
(1)引入了一种新的图像-文本-预测框基准数据集GeoText-1652,通过创新的基于人机交互的注释过程,在空间位置与其相应的文本注释之间建立精确的关联;
(2)提出了一种新的空间感知方法,该方法利用细粒度空间关联来执行区域级空间关系匹配。与独立边界框回归不同,此方法进一步引入了无人机图像中的相对位置和周围位置的文本描述,以实现精确定位。
一、数据集收集
(1)跨视图地理定位解决了将从不同视点捕获的图像与其相应的地理位置相关联的挑战。支撑这项任务的一个关键是提取针对视点的判别性视觉表示。
(2)从生成式人工智能(AIGC)的成功中,许多研究利用了大型模型(LM)的能力来创建训练或补充数据集。LM已经展示了对不同模态数据进行注释的能力,包括文本、图像、视频和音乐。
基于以上两点,本工作构建一种数据集,包含来自卫星、无人机和地面摄像机三个平台的72所大学的1652栋建筑。每张图像有细粒度的注释,平均有3个包含图像级和区域级细节的全局描述和2.62个边界框,每个全局描述平均包含70.23个单词,其中专门为边界框匹配提取的区域级全局描述平均包含21.6个单词。
与现有数据集相比,所提出的数据集包含具有区域级注释的细粒度描述,这是自然语言引导任务的关键。
实例如下图所示:
数据集结构如下图所示:
二、模型整体框架
模型的整体框架如下图所示:
可以看出,主要由以下几部分组成:
(1)文本部分:整体级文本编码器、区域及文本编码器;
(2)视觉部分:整体级图像编码器、区域级视觉特征获取器(ROI Pooling)、区域空间关系映射器
(3)视觉语言对齐部分:注意力模块1(整体级图像和整体级文本对齐)、注意力模块2(整体级图像和区域级文本对齐)。
三、难点
3.1 L_itc
采用对比学习的方法,将能互相匹配的整体级图像和整体级文本视为正例,其他样本视为负例,计算余弦相似度:
其中是余弦相似度,
是可学习的温度参数。
和
的上标表示批次中的第
个样本,于是对比学习的损失函数可以定义如下:
3.2 L_itm
此部分使用注意力模块,将整体级图像和整体级文本对齐:
(1)对于批量中的每一个视觉概念:根据最高余弦相似度采样(选择)批量中的硬负定文本特征;
(2)对于批量中的每一个文本概念:根据最高余弦相似度采样(选择)批量中的硬负定视觉特征;
(3)应用多模态编码器的输出嵌入来预测匹配概率pmatch(具体pmatch该怎么计算?通过在attention模块的最后一层放置一个softmax层来得到pmatch?)
最后,此部分的损失函数为:
其中是一个二进制标签,指示输入是正对还是硬负对。
3.3 L_grounding
给定完整级图像表示和区域级文本表示,该模型将根据相应的文本概念,预测边界框
(即在图像中找出文本所提及的目标,损失函数包括类别损失和定位损失,跟目标检测非常像)。
此部分的损失函数为:
其中 为正确边界框,
为预测边界框。
3.4 L_spatial
此部分用于计算,具体流程如下:
(1)给定三个感兴趣区域,通过ROI池模块,基于全局特征V提取视觉特征作为区域特征、
和
;
(2)将区域特征连接为组合特征,并采用多层感知器(MLP)来预测9类空间关系概率
;
(3)损失函数中的真值标签 为“左上,中上,右上,左中,中中,右中,左下,中下,右下”之一。
具体损失函数如下:
四、总结
(1)本工作开展的原因——自然语言引导的无人机导航仍然存在两个挑战:没有大型的公共语言导航数据集,提供如此详细的图像描述通常具有很高的人力资源成本和可靠的注释质量; 由于无人机视图场景图像的细粒度特性,仍然很难对齐语言和视觉表示。
(2)本工作的突出贡献——提出一种细粒度的数据集,对该数据集进行微调可以带来相当大的性能改进;提出一种空间关系匹配方法,用细粒度空间关联来执行区域级空间关系匹配。