Image fusion in the loop of high-level vision tasks-A semantic-aware real-time infrared and visible image fusion network(2022)
代码地址
解决问题
红外光、可见光融合
主要贡献
- 设计了GRDB模块,增强网络对细粒度细节的描述能力并实现特征重用
- 任务驱动评估方式,将语义分割引入训练当中
数据集
归一化到[0-1]、颜色空间转换(使用YCbCr中的Y进行操作)
- MFNet 数据集:包含 1083 对红外和可见光图像的训练集,以及 361 对图像的测试集。该数据集提供了九个物体类别的语义标签。
- RoadScene 数据集:用于泛化实验,包含 25 对图像。
- TNO 数据集:也用于泛化实验,包含 25 对图像。
评价指标
- 熵(Entropy, EN):衡量融合图像中包含的信息量。较高的熵值表示融合图像包含更多的信息。
- 互信息(Mutual Information, MI):衡量从源图像到融合图像的信息传递量。较高的互信息值表示融合图像更好地保留了源图像的信息。
- 视觉信息保真度(Visual Information Fidelity, VIF):从人类视觉系统的角度评估融合图像的信息保真度。较高的 VIF 值表示融合图像与人类视觉感知更一致。
- 空间频率(Spatial Frequency, SF):衡量融合图像中包含的空间频率信息量。较高的 SF 值表示融合图像具有更丰富的细节。
- 标准差(Standard Deviation, SD):从统计学角度反映融合图像的分布和对比度。较高的 SD 值表示融合图像具有更高的对比度。
- 边缘信息传递(Edge Information Transfer, EIT):衡量从源图像到融合图像的边缘信息传递量。较高的 EIT 值表示融合图像保留了更多的边缘信息。
框架结构
训练策略
梯度残差密集块(GRDB)
提取高级语义特征并增强对细粒度细节的描述能力,GRDB可以将学习到的卷积特征和梯度幅度信息进行融合
损失函数
内容损失
包含两个部分:强度损失和纹理损失,有效提升融合图像的视觉质量和统计评估指标
L
c
o
n
=
L
i
n
t
+
α
L
t
e
x
\begin{aligned} L_{con}=L_{int}+αL_{tex} \\ \end{aligned}
Lcon=Lint+αLtex
1、强度损失–衡量融合图像和源图像在像素层面的差异
L
i
n
t
=
1
H
W
∥∥
A
f
u
s
−
m
a
x
(
A
i
r
,
A
v
i
s
)
∥
∥
1
\begin{aligned} L_{int}=\frac{1}{HW}∥∥A_{fus}−max(A_{ir},A_{vis})∥∥_1 \end{aligned}
Lint=HW1∥∥Afus−max(Air,Avis)∥∥1
2、纹理损失–迫使融合图像包含更多的细粒度纹理信息
L
t
e
x
=
1
H
W
∥∥
∣
∇
A
f
u
s
∣
−
m
a
x
(
∣
∇
A
i
r
∣
,
∣
∇
A
v
i
s
∣
)
∥
∥
1
\begin{aligned} L_{tex} = \frac{1}{HW}∥∥∣∇A_{fus}∣−max(∣∇A_{ir}∣,∣∇A_{vis}∣)∥∥_1 \end{aligned}
Ltex=HW1∥∥∣∇Afus∣−max(∣∇Air∣,∣∇Avis∣)∥∥1
语义损失
两部分:主语义损失和辅助语义损失
L
s
e
m
=
L
s
e
m
+
ζ
L
a
u
x
L
s
e
m
=
−
1
H
W
∑
h
=
1
H
∑
w
=
1
W
∑
c
=
1
C
S
(
h
,
w
,
c
)
l
o
g
(
S
^
(
h
,
w
,
c
)
)
L
a
u
x
=
−
1
H
W
∑
h
=
1
H
∑
w
=
1
W
∑
c
=
1
C
S
(
h
,
w
,
c
)
l
o
g
(
S
^
a
(
h
,
w
,
c
)
)
\begin{gathered} L_{sem} = L_{sem} + \zeta L_{aux}\\ L_{sem}=−\frac{1}{HW} \sum _{h=1}^H \sum_{w=1}^W \sum_{c=1}^CS(h,w,c)log(\hat{S}(h,w,c)) \\ L_{aux}=−\frac{1}{HW} \sum_{h=1}^H \sum_{w=1}^W \sum_{c=1}^CS(h,w,c)log(\hat{S}_a(h,w,c)) \end{gathered}
Lsem=Lsem+ζLauxLsem=−HW1h=1∑Hw=1∑Wc=1∑CS(h,w,c)log(S^(h,w,c))Laux=−HW1h=1∑Hw=1∑Wc=1∑CS(h,w,c)log(S^a(h,w,c))
最终的损失
L
t
o
t
a
l
=
L
c
o
n
+
α
s
e
m
L
s
e
m
\begin{equation} L_{total} = L_{con} + α_{sem}L_{sem} \end{equation}
Ltotal=Lcon+αsemLsem
α
s
e
m
\alpha_{sem}
αsem 是一个超参数,随着训练进行,会慢慢增大
实验包含两幅白天、两幅夜晚图片定型比较,定量比较以及泛化性实验(和前面类似)、语义分割、目标检测实验