论文题目:VGRSS: Datasets and Models for Visual Grounding in Remote Sensing Ship Images
- 论文地址:IEEE Xplore
- 代码地址:https://github.com/LwZhan-WUT/VGRSS
摘要
本文提出了一项名为遥感船舶图像视觉定位(VGRSS)的新任务。VGRSS的目标是通过自然语言指导在遥感图像中定位船舶目标。目前已有大量研究致力于遥感图像与文本的多模态处理,试图通过自然语言从遥感图像中获取丰富信息。然而由于遥感船舶图像的特殊性,利用自然语言进行船舶定位仍面临挑战。为此,我们针对VGRSS任务构建了专用数据集并探索深度学习模型。具体而言,本文的贡献可归纳为以下四点:首先,我们构建了两个面向视觉定位的遥感船舶数据集。其中基于光学遥感影像的数据集命名为RSSVG,基于合成孔径雷达(SAR)影像的数据集命名为SARVG。其次,我们提出了语言引导的视觉特征增强(LVFE)模块。该模块在视觉-语言融合前通过语言指导增强视觉特征。第三,我们设计了基于多模态特征堆叠的视觉-语言融合(VLF)模块。该模块将堆叠的语言和视觉特征输入Transformer进行特征融合,实现有效的跨模态交互与整合。第四,我们创新性地将增强交并比(EIoU)引入损失函数,提出新的损失计算方法。最后,我们在构建的RSSVG和SARVG数据集上对当前最先进的自然图像视觉定位方法进行基准测试,并根据结果提供深入分析。本研究为开发更优的VGRSS模型提供了重要启示。
Part.01 研究贡献
- 构建了一个遥感船舶视觉定位双模态数据集,研究团队针对光学和合成孔径雷达(SAR)两种主流遥感数据源,分别构建了RSSVG和SARVG数据集。通过自动化文本生成技术,建立了包含船舶尺寸、颜色、空间位置等多属性标注的25,237对光学图像-文本样本和54,429对SAR图像-文本样本,填补了该领域高质量数据集的空白。
- 提出语言引导的视觉特征增强模块(LVFE),该模块创新性地将多头自注意力机制与残差连接结合,在特征融合前通过文本语义信息动态调整视觉特征。实验表明其有效解决了文本特征利用不足的问题。
- 开发空间保持型多模态融合架构(VLF),采用特征堆叠策略替代传统维度压缩方法,通过四层Transformer堆叠结构实现跨模态交互。相比传统方法,该模块在DIOR-RSVG数据集上取得83.01%的测试准确率,验证了其空间信息保持的有效性。
- 创新EIoU增强型损失函数,在传统IoU损失基础上引入中心距、宽高比等几何约束项,构建复合损失函数。消融实验显示,该设计使模型在SARVG数据集上的平均IoU提升0.94%,显著改善了小尺度船舶的定位精度。
Part.02 模型结构
VGRSS(遥感船舶图像视觉定位)是一项基于自然语言描述在遥感船舶图像中定位目标物体的任务。我们采用CNN主干网络提取视觉特征,并通过BERT模型获取词级和文本嵌入。针对文本特征利用率不足的问题,本文提出语言引导的视觉特征增强(LVFE)模块。该模块在视觉与文本特征融合前,通过语言视觉特征,使模型能更充分地利用文本信息,强化语言描述的视觉特征表达。除此之外,我们设计了基于多模态特征堆叠的视觉-语言融合模块(VLF),以解决视觉特征空间信息丢失的问题。该模块将语言和视觉特征进行堆叠,采用多头自注意力机制进行特征融合,并通过多次残差连接实现跨模态信息的有效整合。这种设计使得遥感图像与文本信息能够充分交互,通过在视觉和文本嵌入顶部叠加可学习的嵌入(learnable token),利用Transformer的自注意力机制聚合跨模态信息。最终,该可学习嵌入被送入定位模块进行边界框坐标回归。如图3所示的整体框架,下文将详细阐述各模块的具体实现。

模型架构分为以下五个核心模块:
-
视觉特征提取模块
采用ResNet作为主干网络提取图像特征,输出2D特征图后接入视觉Transformer进行全局上下文推理。通过1×1卷积降维并引入正弦位置编码,生成256维的高层视觉嵌入特征,保留了原始图像的空间结构信息。 -
语言特征提取模块
使用预训练BERT模型处理自然语言描述,通过6层Transformer编码器生成768维的文本嵌入。在词级特征基础上增加[CLS]和[SEP]标记,同时捕获局部语义和全局上下文信息,构建多粒度语言表征。 -
语言引导特征增强模块(LVFE)
创新性地设计四层多头自注意力结构,将文本特征线性投影到视觉空间后,通过交叉注意力机制实现语言指导下的视觉特征优化。采用残差连接防止信息丢失,使视觉特征聚焦于文本描述的关联区域,提升小目标识别能力。

- 跨模态融合模块(VLF)
提出特征堆叠策略,将增强后的视觉特征与扩展后的文本特征沿通道维度拼接,形成512维融合特征。引入可学习的查询向量,通过四层Transformer进行跨模态交互,采用残差连接保留空间信息,最终输出包含多模态信息的特征向量。

- 预测与优化模块
设计三层MLP回归头,结合Smooth L1损失、GIoU损失和新提出的EIoU损失进行端到端优化。EIoU通过引入中心距、宽高比约束项,增强对遥感船舶目标几何特性的建模能力,有效解决了传统IoU指标对长宽敏感度不足的问题。
Part.03 数据集
本文采用三个数据集进行实验,包括我们自己创建的RSSVG和SARVG两个数据集,以及DIOR-RSVG数据集具体如下:
-
RSSVG数据集
该数据集包含25,237对光学遥感图像-文本查询及11,157张图像,平均描述长度9.77词(最长17词)。语言表达呈现多维度特征,高频词汇"货轮"凸显船舶类型标注,同时涵盖尺寸(大/中/小)、颜色(白/蓝)、方位(左/右)及工程属性(甲板/引擎),完整刻画船舶外观与场景语义,适用于复杂光学影像的细粒度视觉定位。 -
SARVG数据集
包含54,429对SAR图像-文本查询及43,798张图像,平均描述长度7.72词(最长19词)。语言特征聚焦空间关系与尺寸对比,高频词"大型船舶"“中尺寸"配合方位词"左上”"右下"形成核心描述范式,契合SAR图像低纹理、高几何特性的解析需求,强化了船舶位置感知与相对尺度判读能力。 -
DIOR-RSVG数据集
RSVG是一个面向遥感数据的大规模基准数据集,其核心目标是通过自然语言指导,在遥感图像中实现目标物体的精准定位。该数据集创新性地构建了"图像/文本描述/边界框"三元组数据结构,为视觉定位模型的训练与评估提供了标准化测试基准。
Part.04 实验结果
对比实验
为评估我们提出方法的优势,我们在自建的RSSVG和SARVG数据集上报告了性能并与最先进(SOTA)方法进行了对比。同时为验证方法的通用性,还在DIOR-RSVG数据集进行了训练。如表I所示,我们的模型在三个数据集上全面超越现有方法。在RSSVG数据集上,验证集准确率提升8.97%,测试集准确率提升9.04%,平均交并比(mIoU)提升5.83%。在SARVG数据集上,验证集准确率提升0.86%,测试准确率提升0.12%,mIoU提升0.94%。在DIOR-RSVG数据集上,mIoU获得6.81%的提升,测试准确率提高6.23%,在精度指标和mIoU指标上均取得显著进步。

消融实验
如表II所示:第1行未添加任何模块时,RSSVG测试集准确率为57.12%。第2行单独引入LVFE模块使性能提升2.15%;第3行仅使用VL模块实现3.57%的增益;第4行单独应用EIoU损失函数带来4.74%的显著提升。第5行联合使用LVFE和VL模块获得7.61%的协同提升,而第6行LVFE与EIoU组合意外导致1.35%的性能下降。第7行VL模块与EIoU结合产生2.33%的增益。最终第8行完整框架(LVFE+VLF+EIoU)相较基准模型实现9.04%的突破性提升,验证了多组件协同的有效性。

在DIOR-RSVG数据集上的深度实验中(表III),LVFE模块层数从3层增至4层时准确率提升至83.15%,但继续增至5层时下降至82.58%,揭示四层为最优配置。VLF模块在3层时达到84.20%的峰值,4层时回落至83.47%,确定三层为最佳深度。该分层实验不仅证实模块的鲁棒性,更揭示了网络深度与性能的非线性关系,为遥感视觉定位模型的深度调优提供了重要参数依据。

定性实验
在图6 (文章图6)中,我们展示了VGRSS模型在RSSVG测试集上的定性结果,特别对比分析了应用LVFE(语言引导视觉特征增强)模块前后的注意力热图分布。可视化结果表明,该方法显著提升了模型对语言描述所指区域的关注能力。通过LVFE模块的语言引导,模型能够更精准地聚焦于文本描述中提到的目标区域(如“右上方货轮”或“右下中型政府舰船”),有效增强了对目标位置和形态的感知。注意力热图的可解释性表明,语言特征与视觉特征的交互显著优化了模型对复杂场景的理解,验证了LVFE模块在跨模态对齐中的关键作用。

Part.05 研究展望
本文提出了一种基于遥感船舶图像的视觉定位新任务VGRSS(Visual Grounding of Remote Sensing Ship Images)。据我们所知,这是首个针对遥感船舶图像视觉定位任务构建的大规模数据集:基于光学遥感数据的RSSVG数据集和基于合成孔径雷达(SAR)数据的SARVG数据集。通过自动化生成方法构建的这两个数据集,在保证标注精度的同时显著降低了数据采集成本。数据集具有规模大、类间相似性高、类内多样性显著等特点。我们对现有自然图像领域的state-of-the-art方法进行了系统评测与结果分析,并提出了一种创新模型,通过语言引导的视觉特征增强模块和跨模态特征融合模块,解决了文本信息利用不足和空间信息丢失的核心问题。相比自然图像视觉定位方法,本方法在遥感船舶图像上展现出更优性能。未来研究将重点优化模型对遥感船舶图像特性的适应性,进一步提升任务表现。
1798

被折叠的 条评论
为什么被折叠?



