图像融合论文速读:SGFusion: A saliency guided deep-learning framework for pixel-level image fusion

作者提出SGFusion,一种端到端的通用图像融合框架,利用显著性检测指导深度学习过程,通过双解码器处理多模态图像和多曝光图像,显著性特征作为融合权值,实现了高性能的图像融合并减少了伪影。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

@article{liu2023sgfusion,
title={SGFusion: A saliency guided deep-learning framework for pixel-level image fusion},
author={Liu, Jinyang and Dian, Renwei and Li, Shutao and Liu, Haibo},
journal={Information Fusion},
volume={91},
pages={205–214},
year={2023},
publisher={Elsevier}
}


论文级别:SCI A1 TOP
影响因子:18.6

📖[论文下载地址]
💽[代码下载地址(暂无)]



📖论文解读

作者提出了一种【显著性引导】的【端到端】【通用】【像素级】图像融合框架SGFusion,可用于多模态图像融合(IVIF、医学MRI+PET)和多曝光图像融合任务。
该网络采用双导编码、图像重建解码和显著性检测解码过程,同时从图像中提取不同尺度的特征映射和显著性映射。将显著性检测解码作为融合权值,将图像重构解码的特征合并生成融合图像,可以有效地从源图像中提取有意义的信息,使融合图像更符合视觉感知。

🔑关键词

Pixel-level image fusion 像素级图像融合
Fusion weight 融合权重
Deep learning 深度学习
Saliency detection 显著性检测

💭核心思想

训练的时候是单编码器(提取特征)双解码器(其实就是特征重构解码器和Mask解码器,用于重构源图像和掩膜)

🎖️本文贡献

  • 提出了一种像素级通用图像融合模型,只需要训练一个模型,即可实现多任务图像融合
  • 利用显著性检测来指导图像编码过程,利用显著性检测的特征作为融合权值来实现图像解码过程
  • SOTA

🪅相关背景知识

  • 深度学习
  • 神经网络
  • 图像融合

扩展学习
[什么是图像融合?(一看就通,通俗易懂)]

🪢网络结构

🪢训练部分

对于训练部分,构建【多尺度双导编码融合网络】(multi-scale dual-guided encoding fusion, MDEF)作为整个框架,MDEF主要包括:

  • dual-guided encoding 双指导编码 下图中蓝色模块
  • image reconstruction decoding 图像重构编码 下图中黄色模块
  • saliency detection decoding 显著检测解码 下图中粉色模块
作者提出的网络结构如下所示。

整体结构说白了就是单编码器双解码器,双解码器一个重构源图像,一个生成显著性掩膜

在这里插入图片描述
既然是双解码器,因此就会有两个损失
重构损失Lr和掩膜损失Lm
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
MAE,Mean Absolute Error,平均绝对误差

Binary Cross Entropy(BCE),二值交叉熵
在这里插入图片描述

🪢融合部分

对于融合部分
利用训练部分的结构重构双输入网络,并将网络提取的显著特征作为权重进行图像融合,生成最终的融合结果

作者提出的网络结构如下所示。

在这里插入图片描述

这里特征融合作者选择了加法策略,融合以后就到E‘那个地方了,然后使用特征重构模块生成融合图像
诶?那前面说了半天的D,显著性检测解码哪去了???
问得好
咱们先看原文
在这里插入图片描述

在这里插入图片描述
3.2.1节说了什么?
又是一个好问题,作者想表达的其实就是:
不同类型的源图像对各种融合任务都有限制,因此有必要选择合适的源图像来生成融合权值。此外,权值设计的另一个关键点是选择显著性检测解码的哪一部分生成权值。

其中,显著性检测解码生成的特征有两个部分:多尺度特征和生成的显著性图(权重图)
在这里插入图片描述
经过对比,作者只使用多尺度特征来生成融合层,可以使融合方法兼顾重要的区域信息和环境信息,避免产生伪影

作者选择显著性检测解码的第一层卷积层计算多尺度权值,同时舍弃了不能有效提取显著性信息的权重

📉损失函数

上文已介绍

🔢数据集

测试数据集:

  • TNO
  • DOI:10.1016/j.infrared.2017.02.005

训练数据集:
对于通用的IF模型,作者只使用了一个数据集训练,这个数据集就是EC-SSD

这是一个显著性分割数据集

图像融合数据集链接
[图像融合常用数据集整理]

🎢训练设置

在这里插入图片描述
在这里插入图片描述

🔬实验

📏评价指标

  • EN
  • MI
  • ME-SSIM
  • QABF

扩展学习
[图像融合定量指标分析]

🥅Baseline

  • IVIF
    Densefuse、GTF、fusongan、IFEVIP、U2Fusion

✨✨✨扩展学习✨✨✨
✨✨✨强烈推荐必看博客[图像融合论文baseline及其网络模型]✨✨✨

🔬实验结果

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

更多实验结果及分析可以查看原文:
📖[论文下载地址]

🧷总结体会

单编码器和双解码器,双解码器一个用于重构,一个用于生成mask


🚀传送门

📑图像融合相关论文阅读笔记

📑[(TLGAN)Boosting target-level infrared and visible image fusion with regional information coordination]
📑[ReFusion: Learning Image Fusion from Reconstruction with Learnable Loss via Meta-Learning]
📑[YDTR: Infrared and Visible Image Fusion via Y-Shape Dynamic Transformer]
📑[CS2Fusion: Contrastive learning for Self-Supervised infrared and visible image fusion by estimating feature compensation map]
📑[CrossFuse: A novel cross attention mechanism based infrared and visible image fusion approach]
📑[(DIF-Net)Unsupervised Deep Image Fusion With Structure Tensor Representations]
📑[(MURF: Mutually Reinforcing Multi-Modal Image Registration and Fusion]
📑[(A Deep Learning Framework for Infrared and Visible Image Fusion Without Strict Registration]
📑[(APWNet)Real-time infrared and visible image fusion network using adaptive pixel weighting strategy]
📑[Dif-fusion: Towards high color fidelity in infrared and visible image fusion with diffusion models]
📑[Coconet: Coupled contrastive learning network with multi-level feature ensemble for multi-modality image fusion]
📑[LRRNet: A Novel Representation Learning Guided Fusion Network for Infrared and Visible Images]
📑[(DeFusion)Fusion from decomposition: A self-supervised decomposition approach for image fusion]
📑[ReCoNet: Recurrent Correction Network for Fast and Efficient Multi-modality Image Fusion]
📑[RFN-Nest: An end-to-end resid- ual fusion network for infrared and visible images]
📑[SwinFuse: A Residual Swin Transformer Fusion Network for Infrared and Visible Images]
📑[SwinFusion: Cross-domain Long-range Learning for General Image Fusion via Swin Transformer]
📑[(MFEIF)Learning a Deep Multi-Scale Feature Ensemble and an Edge-Attention Guidance for Image Fusion]
📑[DenseFuse: A fusion approach to infrared and visible images]
📑[DeepFuse: A Deep Unsupervised Approach for Exposure Fusion with Extreme Exposure Image Pair]
📑[GANMcC: A Generative Adversarial Network With Multiclassification Constraints for IVIF]
📑[DIDFuse: Deep Image Decomposition for Infrared and Visible Image Fusion]
📑[IFCNN: A general image fusion framework based on convolutional neural network]
📑[(PMGI) Rethinking the image fusion: A fast unified image fusion network based on proportional maintenance of gradient and intensity]
📑[SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion]
📑[DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion]
📑[FusionGAN: A generative adversarial network for infrared and visible image fusion]
📑[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
📑[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
📑[U2Fusion: A Unified Unsupervised Image Fusion Network]
📑综述[Visible and Infrared Image Fusion Using Deep Learning]

📚图像融合论文baseline总结

📚[图像融合论文baseline及其网络模型]

📑其他论文

📑[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]

🎈其他总结

🎈[CVPR2023、ICCV2023论文题目汇总及词频统计]

✨精品文章总结

[图像融合论文及代码整理最全大合集]
[图像融合常用数据集整理]

🌻【如侵权请私信我删除】

如有疑问可联系:420269520@qq.com;
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位早发paper,顺利毕业~

### 特征金字塔网络(FPN)替换传统CNN并实现SSCF与SCFF #### FPN 替代传统 CNN 的核心原理 特征金字塔网络(Feature Pyramid Network, FPN)是一种用于多尺度目标检测的有效架构。其主要思想是通过创建一个多尺度的特征金字塔来捕获不同层次的信息[^1]。相比于传统的卷积神经网络(CNN),后者通常仅依赖单一尺度的特征图进行预测,而 FPN 则能够充分利用从低级到高级的不同分辨率特征。 FPN 结合了自顶向下的路径和横向连接机制,从而有效地融合了高分辨率的浅层特征和富含语义信息的深层特征[^2]。这种方法不仅提高了模型对小物体的检测能力,还增强了整体性能。 --- #### 子像素快捷融合(Sub-pixel Shortcut Fusion, SSCF) 子像素快捷融合(SSCF)是指一种在高层特征图中引入低层细节信息的技术。具体来说,在构建特征金字塔的过程中,可以通过插值或其他方式提升低分辨率特征图的空间尺寸,并将其与更高分辨率的特征图相加或拼接。这种方式有助于保留更多的局部纹理信息,同时减少因下采样而导致的信息丢失。 以下是实现 SSCF 的伪代码示例: ```python import torch.nn as nn class SubPixelShortcutFusion(nn.Module): def __init__(self, channels): super(SubPixelShortcutFusion, self).__init__() self.up_sample = nn.Upsample(scale_factor=2, mode='bilinear', align_corners=True) def forward(self, high_level_feature, low_level_feature): upsampled_high = self.up_sample(high_level_feature) fused_feature = upsampled_high + low_level_feature # 或者使用 concat 操作 return fused_feature ``` 上述代码展示了如何将高层次特征图上采样并与低层次特征图进行逐元素相加操作[^5]。 --- #### 子像素上下文特征融合(Sub-pixel Context Feature Fusion, SCFF) 子像素上下文特征融合(SCFF)进一步扩展了 SSCF 的概念,旨在增强特征表示中的全局上下文关系。该技术不仅可以融合高低层之间的空间信息,还可以捕捉更广泛的场景理解。例如,通过注意力机制或者通道间交互模块,可以动态调整各部分的重要性权重。 下面提供了一种简单的 SCFF 实现方案: ```python class SubPixelContextFeatureFusion(nn.Module): def __init__(self, in_channels, out_channels): super(SubPixelContextFeatureFusion, self).__init__() self.conv1x1 = nn.Conv2d(in_channels, out_channels, kernel_size=1) self.attention_module = AttentionModule(out_channels) # 自定义注意力模块 def forward(self, feature_map): reduced_features = self.conv1x1(feature_map) context_enhanced = self.attention_module(reduced_features) return context_enhanced ``` 在此设计中,`AttentionModule` 可以采用 SE-Net 中的挤压激励机制或者其他形式的注意力建模工具[^6]。 --- #### 翻译术语解释 - **Sub-pixel Shortcut Fusion (SSCF)** 子像素快捷融合:指通过对低分辨率特征图进行放大处理后再与高分辨率特征图相结合的过程。 - **Sub-pixel Context Feature Fusion (SCFF)** 子像素上下文特征融合:除了完成基本的空间维度匹配外,还会加入额外的上下文感知逻辑以优化最终输出质量。 --- ### 性能对比分析 相比单纯依靠图像金字塔的传统方法[^4],FPN 能够显著降低计算成本,因为它无需针对每张输入图片生成多个缩放版本;相反,它是直接作用于原始大小的数据集之上并通过内部结构调整达到类似效果。此外,结合 SSCF 和 SCFF 技术后,整个框架对于复杂背景条件下的微小对象识别更加敏感且鲁棒性强。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

图像强

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值