1、动机
目前深度网络有很强的语义表达能力,但还是难免损失一些细节。为了更好地保持源图像的细节,我们使用梯度来引导网络的训练。
计算源图像的梯度图,并且计算了一个梯度值GV,一起引导解码器重建图像。
同时,基于这个GV,设计了一个新的融合策略。
作者在贡献里这样写:设计了一个新的半自动的融合策略来增强视觉信息。通过调整一对超参数,算法可以增强来自不同模态的细节。
2、网络结构
2.1 Stem conv
引用ResNet的思想,大核卷积,使用7*7的大感受野。卷积的结果同时送入后续encoder和Guide Generator。
2.2 Guide Generator
深度语义信息提取器,使用4个resblock降采样,通道翻倍,平均池化得到一个Guide Value即GV
全局平均池化后,GV的维度是25611,这个GV的作用就相当于一个通道注意力了。
引导decoder中不同的层,所以有不同的线性映射把256维的GV映射到目标维度。
2.3 Gradient Branch
使用拉普拉斯梯度算子执行边缘检测,(后续做了消融实验)
步骤:
- 高斯核去噪
- 拉普拉斯梯度算子提取梯度