VGRSS: Datasets and Models for Visual Grounding in Remote Sensing Ship Images

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

论文题目:VGRSS: Datasets and Models for Visual Grounding in Remote Sensing Ship Images

  • 论文地址:IEEE Xplore
  • 代码地址:https://github.com/LwZhan-WUT/VGRSS

摘要

本文提出了一项名为遥感船舶图像视觉定位(VGRSS)的新任务。VGRSS的目标是通过自然语言指导在遥感图像中定位船舶目标。目前已有大量研究致力于遥感图像与文本的多模态处理,试图通过自然语言从遥感图像中获取丰富信息。然而由于遥感船舶图像的特殊性,利用自然语言进行船舶定位仍面临挑战。为此,我们针对VGRSS任务构建了专用数据集并探索深度学习模型。具体而言,本文的贡献可归纳为以下四点:首先,我们构建了两个面向视觉定位的遥感船舶数据集。其中基于光学遥感影像的数据集命名为RSSVG,基于合成孔径雷达(SAR)影像的数据集命名为SARVG。其次,我们提出了语言引导的视觉特征增强(LVFE)模块。该模块在视觉-语言融合前通过语言指导增强视觉特征。第三,我们设计了基于多模态特征堆叠的视觉-语言融合(VLF)模块。该模块将堆叠的语言和视觉特征输入Transformer进行特征融合,实现有效的跨模态交互与整合。第四,我们创新性地将增强交并比(EIoU)引入损失函数,提出新的损失计算方法。最后,我们在构建的RSSVG和SARVG数据集上对当前最先进的自然图像视觉定位方法进行基准测试,并根据结果提供深入分析。本研究为开发更优的VGRSS模型提供了重要启示。

Part.01 研究贡献

  1. 构建了一个遥感船舶视觉定位双模态数据集,研究团队针对光学和合成孔径雷达(SAR)两种主流遥感数据源,分别构建了RSSVG和SARVG数据集。通过自动化文本生成技术,建立了包含船舶尺寸、颜色、空间位置等多属性标注的25,237对光学图像-文本样本和54,429对SAR图像-文本样本,填补了该领域高质量数据集的空白。
  2. 提出语言引导的视觉特征增强模块(LVFE),该模块创新性地将多头自注意力机制与残差连接结合,在特征融合前通过文本语义信息动态调整视觉特征。实验表明其有效解决了文本特征利用不足的问题。
  3. 开发空间保持型多模态融合架构(VLF),采用特征堆叠策略替代传统维度压缩方法,通过四层Transformer堆叠结构实现跨模态交互。相比传统方法,该模块在DIOR-RSVG数据集上取得83.01%的测试准确率,验证了其空间信息保持的有效性。
  4. 创新EIoU增强型损失函数,在传统IoU损失基础上引入中心距、宽高比等几何约束项,构建复合损失函数。消融实验显示,该设计使模型在SARVG数据集上的平均IoU提升0.94%,显著改善了小尺度船舶的定位精度。

Part.02 模型结构

VGRSS(遥感船舶图像视觉定位)是一项基于自然语言描述在遥感船舶图像中定位目标物体的任务。我们采用CNN主干网络提取视觉特征,并通过BERT模型获取词级和文本嵌入。针对文本特征利用率不足的问题,本文提出语言引导的视觉特征增强(LVFE)模块。该模块在视觉与文本特征融合前,通过语言视觉特征,使模型能更充分地利用文本信息,强化语言描述的视觉特征表达。除此之外,我们设计了基于多模态特征堆叠的视觉-语言融合模块(VLF),以解决视觉特征空间信息丢失的问题。该模块将语言和视觉特征进行堆叠,采用多头自注意力机制进行特征融合,并通过多次残差连接实现跨模态信息的有效整合。这种设计使得遥感图像与文本信息能够充分交互,通过在视觉和文本嵌入顶部叠加可学习的嵌入(learnable token),利用Transformer的自注意力机制聚合跨模态信息。最终,该可学习嵌入被送入定位模块进行边界框坐标回归。如图3所示的整体框架,下文将详细阐述各模块的具体实现。

图1

图1 VGRSS整体框架图

模型架构分为以下五个核心模块:

  1. 视觉特征提取模块
    采用ResNet作为主干网络提取图像特征,输出2D特征图后接入视觉Transformer进行全局上下文推理。通过1×1卷积降维并引入正弦位置编码,生成256维的高层视觉嵌入特征,保留了原始图像的空间结构信息。

  2. 语言特征提取模块
    使用预训练BERT模型处理自然语言描述,通过6层Transformer编码器生成768维的文本嵌入。在词级特征基础上增加[CLS]和[SEP]标记,同时捕获局部语义和全局上下文信息,构建多粒度语言表征。

  3. 语言引导特征增强模块(LVFE)
    创新性地设计四层多头自注意力结构,将文本特征线性投影到视觉空间后,通过交叉注意力机制实现语言指导下的视觉特征优化。采用残差连接防止信息丢失,使视觉特征聚焦于文本描述的关联区域,提升小目标识别能力。

图2

图2 LVFE模块图

  1. 跨模态融合模块(VLF)
    提出特征堆叠策略,将增强后的视觉特征与扩展后的文本特征沿通道维度拼接,形成512维融合特征。引入可学习的查询向量,通过四层Transformer进行跨模态交互,采用残差连接保留空间信息,最终输出包含多模态信息的特征向量。

图3

图3 VLF模块图

  1. 预测与优化模块
    设计三层MLP回归头,结合Smooth L1损失、GIoU损失和新提出的EIoU损失进行端到端优化。EIoU通过引入中心距、宽高比约束项,增强对遥感船舶目标几何特性的建模能力,有效解决了传统IoU指标对长宽敏感度不足的问题。

Part.03 数据集

本文采用三个数据集进行实验,包括我们自己创建的RSSVG和SARVG两个数据集,以及DIOR-RSVG数据集具体如下:

  1. RSSVG数据集
    该数据集包含25,237对光学遥感图像-文本查询及11,157张图像,平均描述长度9.77词(最长17词)。语言表达呈现多维度特征,高频词汇"货轮"凸显船舶类型标注,同时涵盖尺寸(大/中/小)、颜色(白/蓝)、方位(左/右)及工程属性(甲板/引擎),完整刻画船舶外观与场景语义,适用于复杂光学影像的细粒度视觉定位。

  2. SARVG数据集
    包含54,429对SAR图像-文本查询及43,798张图像,平均描述长度7.72词(最长19词)。语言特征聚焦空间关系与尺寸对比,高频词"大型船舶"“中尺寸"配合方位词"左上”"右下"形成核心描述范式,契合SAR图像低纹理、高几何特性的解析需求,强化了船舶位置感知与相对尺度判读能力。

  3. DIOR-RSVG数据集

    RSVG是一个面向遥感数据的大规模基准数据集,其核心目标是通过自然语言指导,在遥感图像中实现目标物体的精准定位。该数据集创新性地构建了"图像/文本描述/边界框"三元组数据结构,为视觉定位模型的训练与评估提供了标准化测试基准。

Part.04 实验结果

对比实验

为评估我们提出方法的优势,我们在自建的RSSVG和SARVG数据集上报告了性能并与最先进(SOTA)方法进行了对比。同时为验证方法的通用性,还在DIOR-RSVG数据集进行了训练。如表I所示,我们的模型在三个数据集上全面超越现有方法。在RSSVG数据集上,验证集准确率提升8.97%,测试集准确率提升9.04%,平均交并比(mIoU)提升5.83%。在SARVG数据集上,验证集准确率提升0.86%,测试准确率提升0.12%,mIoU提升0.94%。在DIOR-RSVG数据集上,mIoU获得6.81%的提升,测试准确率提高6.23%,在精度指标和mIoU指标上均取得显著进步。

表1

表1 RSSVG、SARVG和DIOR-RSVG数据集上的性能

消融实验

如表II所示:第1行未添加任何模块时,RSSVG测试集准确率为57.12%。第2行单独引入LVFE模块使性能提升2.15%;第3行仅使用VL模块实现3.57%的增益;第4行单独应用EIoU损失函数带来4.74%的显著提升。第5行联合使用LVFE和VL模块获得7.61%的协同提升,而第6行LVFE与EIoU组合意外导致1.35%的性能下降。第7行VL模块与EIoU结合产生2.33%的增益。最终第8行完整框架(LVFE+VLF+EIoU)相较基准模型实现9.04%的突破性提升,验证了多组件协同的有效性。

表2

表2 LVFE、VLF、EIoU模块消融实验

在DIOR-RSVG数据集上的深度实验中(表III),LVFE模块层数从3层增至4层时准确率提升至83.15%,但继续增至5层时下降至82.58%,揭示四层为最优配置。VLF模块在3层时达到84.20%的峰值,4层时回落至83.47%,确定三层为最佳深度。该分层实验不仅证实模块的鲁棒性,更揭示了网络深度与性能的非线性关系,为遥感视觉定位模型的深度调优提供了重要参数依据。

表3

表3 DIOR-RSVG数据集上LVFE与VLF模块的层数对准确率的影响

定性实验

在图6 (文章图6)中,我们展示了VGRSS模型在RSSVG测试集上的定性结果,特别对比分析了应用LVFE(语言引导视觉特征增强)模块前后的注意力热图分布。可视化结果表明,该方法显著提升了模型对语言描述所指区域的关注能力。通过LVFE模块的语言引导,模型能够更精准地聚焦于文本描述中提到的目标区域(如“右上方货轮”或“右下中型政府舰船”),有效增强了对目标位置和形态的感知。注意力热图的可解释性表明,语言特征与视觉特征的交互显著优化了模型对复杂场景的理解,验证了LVFE模块在跨模态对齐中的关键作用。

图4

图4 定性实验

Part.05 研究展望

本文提出了一种基于遥感船舶图像的视觉定位新任务VGRSS(Visual Grounding of Remote Sensing Ship Images)。据我们所知,这是首个针对遥感船舶图像视觉定位任务构建的大规模数据集:基于光学遥感数据的RSSVG数据集和基于合成孔径雷达(SAR)数据的SARVG数据集。通过自动化生成方法构建的这两个数据集,在保证标注精度的同时显著降低了数据采集成本。数据集具有规模大、类间相似性高、类内多样性显著等特点。我们对现有自然图像领域的state-of-the-art方法进行了系统评测与结果分析,并提出了一种创新模型,通过语言引导的视觉特征增强模块和跨模态特征融合模块,解决了文本信息利用不足和空间信息丢失的核心问题。相比自然图像视觉定位方法,本方法在遥感船舶图像上展现出更优性能。未来研究将重点优化模型对遥感船舶图像特性的适应性,进一步提升任务表现。

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

Object detection in remote sensing images is a challenging task due to the complex backgrounds, diverse object shapes and sizes, and varying imaging conditions. To address these challenges, fine-grained feature enhancement can be employed to improve object detection accuracy. Fine-grained feature enhancement is a technique that extracts and enhances features at multiple scales and resolutions to capture fine details of objects. This technique includes two main steps: feature extraction and feature enhancement. In the feature extraction step, convolutional neural networks (CNNs) are used to extract features from the input image. The extracted features are then fed into a feature enhancement module, which enhances the features by incorporating contextual information and fine-grained details. The feature enhancement module employs a multi-scale feature fusion technique to combine features at different scales and resolutions. This technique helps to capture fine details of objects and improve the accuracy of object detection. To evaluate the effectiveness of fine-grained feature enhancement for object detection in remote sensing images, experiments were conducted on two datasets: the NWPU-RESISC45 dataset and the DOTA dataset. The experimental results demonstrate that fine-grained feature enhancement can significantly improve the accuracy of object detection in remote sensing images. The proposed method outperforms state-of-the-art object detection methods on both datasets. In conclusion, fine-grained feature enhancement is an effective technique to improve the accuracy of object detection in remote sensing images. This technique can be applied to a wide range of applications, such as urban planning, disaster management, and environmental monitoring.
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值