【前沿解读】CVPR2025 | SAM赋能多模态图像融合：让每一滴语义信息都发挥价值

最新推荐文章于 2025-06-16 12:01:59 发布

原创最新推荐文章于 2025-06-16 12:01:59 发布 · 964 阅读

CC 4.0 BY-SA版权

文章标签：

本篇分享 CVPR 2025 论文Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond，SAM赋能多模态图像融合：让每一滴语义信息都发挥价值。

文章链接：https://arxiv.org/abs/2503.01210
项目链接：https://github.com/RollingPlain/SAGE_IVIF

亮点直击

统一视觉质量与任务精确性：如下图Ⅰ所示，传统方法和早期基于深度学习的融合网络主要关注融合的视觉效果，忽略了下游任务的需求。而图Ⅱ展示的特定任务方法虽然引入了任务损失和特征，但导致优化目标不一致。

我们的创新在于，如图Ⅲ所示，通过双级蒸馏框架弥合了这一差距，大型融合网络首先利用Segment Anything Model (SAM)提供的语义先验信息增强性能，真正实现了视觉质量与任务精确性的统一。

轻量高效的实用化设计：将融合知识蒸馏到轻量级子网络中，使其在保持高质量视觉融合的同时，能够无缝支持分割等下游任务。

通过充分利用SAM对分割任务的固有适应性（如图右下角所示），我们的方法不仅在理论上实现了"两全其美"——平衡视觉融合与任务性能，更确保了实际推理阶段的高效可行性，为多模态图像融合领域提供了新的技术范式。

图1.本文所提方法与现有主流对比方法的差异。

解决的问题

传统方法的局限性：传统基于信息理论的融合方法在图像质量优化上存在明显局限，特别是处理冗余信息和特定场景时表现不佳。而早期深度学习方法则常出现边缘模糊、伪影产生等问题，难以满足下游任务对高质量感知信息的严格要求。

优化目标的冲突：更为棘手的是，当前将融合与下游任务耦合的方法导致优化目标相互冲突，在平衡视觉质量与任务适应性之间形成了难以逾越的鸿沟。研究者们不得不在两个关键目标间做出取舍，难以同时兼顾两者的优化。

SAM模型的计算负担：虽然SAM模型在多模态图像融合领域展现出巨大潜力，但实际应用中完整SAM模型的高计算成本成为另一个严峻挑战。这种计算负担严重限制了基于SAM的融合方法在资源受限场景下的实际部署和应用，使其难以在移动设备或边缘计算环境中发挥作用。

提出的方法

融入SAM丰富语义先验：将SAM的丰富语义先验知识融入多模态图像融合流程，深度挖掘场景语义信息，有效增强了系统对复杂场景的理解能力，从根本上提升了融合效果，使融合图像在视觉质量和下游任务适配性两方面都取得了显著进步。

SPA特征保留与整合机制：SPA模块通过特殊的持久存储库(PR)机制精准保留源图像的关键特征信息，并利用高效的交叉注意力机制将这些特征与SAM提取的高级语义信息无缝整合，实现了不同模态信息的深度融合，为生成语义丰富、结构清晰的高质量融合图像提供了坚实基础。

双层优化驱动蒸馏机制：提出的双层优化驱动蒸馏机制结合创新的三元组损失函数，在训练阶段将主网络中包含SAM语义知识的复杂表征有效转移到轻量级子网络，使得在实际推理时子网络能够独立运行而无需依赖计算密集型的SAM模型，大幅降低了计算复杂度，同时保持了卓越的融合性能，极大提高了模型在实际场景中的应用价值。

设计动机与整体架构

核心挑战：我们旨在推理阶段利用SAM语义先验提升跨模态融合质量，但直接使用大规模SAM模型计算开销过大。虽然知识蒸馏可将SAM驱动的主网络信息转移到轻量级子网络，但主子网络间的能力差距常导致语义转移不完整或结构不一致，阻碍了理想融合性能的实现。

创新框架：为解决这一问题，我们提出如图2所示的双层优化框架，包含SAM增强的主网络与轻量级子网络。在这个框架中，优化过程可通过公式1表示，明确了两个网络在优化过程中的相互关系与目标。通过精心设计的优化机制实现网络间协同进化，在保持高质量融合的同时显著降低推理成本。

技术亮点：采用类DARTS训练策略实现网络交替优化，结合损失函数（包含特征对齐、上下文一致性和对比语义），确保子网络高效获取主网络知识，最终消除对计算密集型SAM模型的依赖。

公式1.所提出的双层优化框架数学表达，通过嵌套优化目式1. 所提出的双层优化框架数学表达，通过嵌套优化目标实现主子网络协同学习。

图2.所提方法的整体架构，包括基于SAM的主网络结构、语义持久化注意力模块、知识蒸馏范式及轻量级子网络设计，共同构成了高效的跨模态融合框架。

实验设置

选用五个具有代表性的数据集，即TNO、RoadScene、MFNet、FMB和M3FD，用于模型的训练与评估。

评估指标

图像融合：采用如EN、SD、SCD和MS-SSIM，从不同角度衡量融合图像对源图像信息的保留程度、细节丰富度以及结构一致性。同时引入无参考图像质量评估指标BRISQUE、NIQE、MUSIQ和PaQ-2-PiQ，评估融合图像的质量，判断其与人类视觉系统感知的契合度。

基于融合的语义分割：使用IoU评估语义分割的性能，计算预测结果与真实标签之间的重叠程度，直观反映模型在不同类别上的分割准确性。通过mIoU综合评估模型在多个类别上的整体分割效果。

实验结果

定性结果

在TNO、RoadScene、M3FD和FMB多个常用数据集上，SAGE方法展现了两个明显优势：

信息保留能力：成功保留了可见光图像中的纹理细节（如植被）和红外图像中的热信息（如烟囱烟雾），实现了"两全其美"的融合效果。
抗干扰能力：在夜间浓雾等复杂场景下，能够准确重建地面上的反光人行横道线和远处建筑轮廓，显示出强大的环境适应性。

在FMB和MFNet数据集上的语义分割任务中，SAGE方法借助SAM的语义先验知识，实现了更准确的分割效果：

白天场景优势：在白天交叉路口场景中，成功区分了卡车和公交车
夜间场景优势：在夜间道路场景中，准确分割出人行道
小目标识别：对远距离小目标行人和夜间几乎不可见的车道线也能进行精确分割

图3：定性结果概要图，详情见原文。

定量结果

在FMB数据集的语义分割任务上，SAGE方法展现了显著优势：

在Segformer-B3框架下，mIoU达到61.2%，比第二好的方法提高了3.0%
即使在无需重新训练的开放词汇分割网络(X-Decoder)上，我们的方法也表现出色，mIoU达到51.1%

图4：定量结果概要图，详情见原文。

结语

在这次研究中，我们探索了如何利用语义信息来改进红外与可见光图像融合的效果，并通过双层蒸馏方案来解决计算效率问题。

这项工作为红外与可见光图像融合领域提供了一个值得探索的新方向，我们期待未来能有更多研究者加入，共同推动这一领域的发展。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述