@article{zhang2021sdnet,
title={SDNet: A versatile squeeze-and-decomposition network for real-time image fusion},
author={Zhang, Hao and Ma, Jiayi},
journal={International Journal of Computer Vision},
volume={129},
pages={2761–2785},
year={2021},
publisher={Springer}
}
论文级别:SCI A2/Q1
影响因子:19.5
文章目录
📖论文解读
这篇论文的作者团队其他的论文FusionGAN、DDcGAN、DeFusion、U2Fusion、SeAFusion、SwinFusion……
[Jiayi Ma (马佳义)教授-谷歌学术]
[(马佳义)]
好厉害,膜拜大佬
🔑关键词
Image fusion 图像融合
Real time 实时
Adaptive 自适应
Proportion 比例
Squeeze decomposition 压缩分解
💭核心思想
💭思想核心
- 图像融合任务可以认为是梯度和强度的提取和重建
- 损失函数= 梯度项(加入了自适应决策块)+强度项(权重设置策略)
- 将压缩分解思想引入图像融合,即通过分解过程来优化压缩过程
- 源图像->融合图像(压缩过程)
- 融合图像->源图像(分解过程)
- SDNet与自编码器网络结构很相似
💭详细核心
作者提出了【压缩分解网络(squeeze-and-decomposition network ,SDNet)】来【实时】处理【多模态图像融合(VIF,PET-MRI)】和【数字图像融合(多聚焦、多曝光)】。图像融合问题可以理解为【梯度】和【强度】信息被【提取】和【重建】的过程。同时作者还设计了由梯度项和强度项组成的损失函数。
- 在梯度项中,引入了【自适应决策块】
- 【自适应决策块】可以根据【像素尺度】上的【纹理丰富程度】,来确定【梯度分布】的【优化目标】,这样可以在融合结果中保留更多的纹理细节
- 在强度项中,通过【调整】每个【强度损失项】的【权重】。因此可以完成多种图像融合任务。
此外,作者将【压缩分解】引入图像融合中,不仅考虑了源图像到融合图像的压缩过程,还考虑了融合图像到源图像的分解过程。这样做是因为图像分解的质量直接与融合图像挂钩,也因此可以从分解的反方向来约束融合,从而生成更好的融合效果。
💭思想扩展
该论文的先前版本:
[Rethinking the Image Fusion: A Fast Unified Image Fusion Network based on Proportional Maintenance of Gradient and Intensity]
下图为本论文先前版本PMGI的网络结构图。
🪢网络结构
作者提出的网路结构如下图所示。
📉损失函数
损失函数由【压缩函数损失
L
s
f
\mathcal L_{sf}
Lsf】【分解连贯损失
L
d
c
\mathcal L_{dc}
Ldc】两部分组成:
📉压缩函数损失
压缩函数损失决定了提取信息的类型以及重建过程中各类信息的主次关系。由【梯度损失
L
g
r
a
d
\mathcal L_{grad}
Lgrad】【强度损失
L
i
n
t
\mathcal L_{int}
Lint】组成:
β
\beta
β是平衡系数,设置为10,80,50和3
📉梯度损失
梯度损失
L
g
r
a
d
\mathcal L_{grad}
Lgrad想让融合图像拥有更丰富的纹理细节。作者在梯度损失里加入了【自适应决策块】来指导融合图像纹理与源图像对应位置的最强纹理保持一致:
i和j代表决策图或梯度图第i行第j列的像素,H和W为图像的高和宽,
I
1
I_1
I1和
I
2
I_2
I2为源图像,
I
f
u
s
e
I_{fuse}
Ifuse为融合图像。∇(·)代表使用拉普拉斯算子计算梯度图。S(·)为决策块基于源图像梯度计算的决策图。
决策块原理图如图3所示。
为了降低噪声对梯度的影响,首先将源图像进行高斯低通滤波,然后使用拉姆拉斯算子计算梯度图,并根据梯度大小在像素尺度上生成决策图。决策图生成过程可公式化为:
|·|是绝对值操作。∇(·)是拉普拉斯操作。L(·)是高斯低通滤波。min(·)最小。sign(·)符号函数。
注意:决策图的大小也是H×W。
📉强度损失
强度损失
L
i
n
t
\mathcal L_{int}
Lint用于指导融合图像保留像素强度信息,同时还可以是融合图像整体风格更真实自然。强度损失公式为:
α
\alpha
α的比例设置策略与图像融合类型有关:本文设置为0.5或1
- 多模态图像融合
融合图像的强度分布往往偏向于某一特定的源图像,如VIF中偏向红外图像,PET-MRI偏向PET。因此:
- 数字图像融合
该类型图像彼此具有很强的互补性,没有高低贵贱。因此:
📉分解连贯损失
I
1
_
d
e
I_{1\_de}
I1_de和
I
2
_
d
e
I_{2\_de}
I2_de分别代表融合图像的分解结果1和2。
I
1
I_1
I1和
I
2
I_2
I2是源图像。
🔢数据集
- PET-MRI:Harvard,裁剪为120×120
- VIF :TNO,裁剪为120×120
- MEIF:来自 Learning a deep single image contrast enhancer from multi-exposure images,裁剪为120×120
- MFIF:来自Multi-focus image fusion using dictionary-based sparse representation,裁剪为60×60
图像融合数据集链接
[图像融合常用数据集整理]
🎢训练设置
如果源图像是彩色RGB,则将其转换为YCbCr,使用源图像Y通道融合。并根据下式对源图像的CbCr进行融合:
C是融合后的Cb或者Cr,
C
1
C_1
C1和
C
2
C_2
C2分别代表两个源图像的Cb或者Cr。ζ是动态范围中值设置为128.
在测试阶段,只使用了压缩网络,没有使用分解网络。
🔬实验
📏评价指标
- EN
- F M I d c t FMI_{dct} FMIdct
- PSNR
- MG
参考资料
[图像融合定量指标分析]
🥅Baseline
- ASR, PCA, NSCT, CNN, GTF, MDLatLRR, DenseFuse, FusionGAN, U2Fusion
🔬实验结果
更多实验结果及分析,可在原文中查看:
📖[论文下载地址]
🚀传送门
📑图像融合相关论文阅读笔记
📑[SDNet: A Versatile Squeeze-and-Decomposition Network for Real-Time Image Fusion]
📑[DDcGAN: A Dual-Discriminator Conditional Generative Adversarial Network for Multi-Resolution Image Fusion]
📑[FusionGAN: A generative adversarial network for infrared and visible image fusion]
📑[PIAFusion: A progressive infrared and visible image fusion network based on illumination aw]
📑[Visible and Infrared Image Fusion Using Deep Learning]
📑[CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for Multi-Modality Image Fusion]
📑[U2Fusion: A Unified Unsupervised Image Fusion Network]
📚图像融合论文baseline总结
📑其他论文
[3D目标检测综述:Multi-Modal 3D Object Detection in Autonomous Driving:A Survey]
🎈其他总结
🎈[CVPR2023、ICCV2023论文题目汇总及词频统计]
✨精品文章总结
✨[图像融合论文及代码整理最全大合集]
✨[图像融合常用数据集整理]
如有疑问可联系:420269520@qq.com;
码字不易,【关注,收藏,点赞】一键三连是我持续更新的动力,祝各位早发paper,顺利毕业~