【红外与可见光图像融合】DSMGN: Dual-Supervised Mask Generation Network for Infrared and Visible Image Fusion

VIS除了用于细节特征提取还做了什么?

  • 用于初步融合图像,这里的融合我理解为在图像级别的融合,而不是在特征级别。backbone部分知识学习到了一个IR的权重图M1,VIS保留程度就是1-M1。

马JY组有篇基于分解的文章是得到融合图像之后再一次分解成高频和低频做了约束。这里的细节特征提取分支就是对融合图像提取高频成分做约束,思想差不多。

本文不同于一般的IVIF融合框架(即分别提取源图像特征然后融合重建),本文的出发点就是把红外的显著信息和可见光的背景信息融合。
因此在encoder-decoder部分,只传入IR图像,用来生成一个M1权重图,用来初步融合图像。有两个分支用来监督中间encoder-decoder(backbone)。

VIS图像只用来提取细节特征(高频成分),因为IR中也有一些细节成分,所以细节特征提取分支的输入是IR和VIS,分别使用高斯模糊核提取了低频成分,然后源图像分别减去低频成分就得到了想要的高频成分(细节信息),然后基于最大值选择得到Dmax
在这里插入图片描述
encoder提取红外特征,而decoder用来生成一个mask图M1。

另一个分支就是显著特征提取分支,*一些工作也使用一个额外的显著特征注入分支,为了突出IR中的显著目标。*不同的是,本文在这里提取显著特征之后经过sigmoid得到一个类似与M1的权重图M2,先初步生成一个融合图像,Ipref与基于M1生成的图像做监督。这里使用了灰度共生矩阵算法提取显著成分。

### 自监督解缠学习方法概述 对于适应红外可见光图像的超分辨率融合,一种无需数据集的自监督解缠学习方法能够有效提升模型性能并减少对标注数据的需求。这种方法通过引入自监督机制来实现特征解缠,从而更好地处理不同模态之间的差异。 #### 特征解缠自监督训练 该方法利用了自编码器结构,在无标签的情况下自动提取输入图像中的潜在表示。具体来说,网络被设计成可以分离出共享特征以及特定于每种模态的独特属性[^1]。为了确保这些特性得到充分的学习,采用了对比损失函数,使得来自相同场景但在不同条件下捕获到的数据样本之间保持一致性的同时最大化跨条件变化的信息熵。 ```python import torch.nn as nn class DisentangledAutoencoder(nn.Module): def __init__(self, input_channels=2): # Infrared and Visible combined channels super(DisentangledAutoencoder, self).__init__() # Encoder layers to extract shared features and modality-specific features self.shared_encoder = nn.Sequential( nn.Conv2d(input_channels, 64, kernel_size=3), nn.ReLU(), ... ) self.infrared_specific_encoder = ... # Define specific encoder for infrared images self.visible_specific_encoder = ... # Define specific encoder for visible light images # Decoder layer reconstructs the original image from learned representations self.decoder = ... def forward(self, x_ir, x_vis): z_shared = self.shared_encoder(torch.cat((x_ir, x_vis), dim=1)) z_ir_spec = self.infrared_specific_encoder(x_ir) z_vis_spec = self.visible_specific_encoder(x_vis) recon_x_ir = self.decoder(z_shared + z_ir_spec) recon_x_vis = self.decoder(z_shared + z_vis_spec) return recon_x_ir, recon_x_vis ``` #### 跨域适配策略 考虑到红外线和可见光线谱的不同性质,此方案还特别关注如何使所学得的知识适用于两个领域间的转换。为此,实施了一套基于循环一致性的正则化技术,即让重建后的目标尽可能接近原始输入,并且当将一个领域的输出映射回另一个领域时也应如此。这有助于增强系统的泛化能力而不依赖额外标记好的多视图实例集合[^2]。 #### 实验验证效果 实验表明,上述提出的框架能够在不借助任何外部数据库的前提下取得良好的视觉质量改进成果,特别是在低光照环境下拍摄的照片上表现尤为突出。此外,由于整个过程完全由内部逻辑驱动而非人为干预指导,因此具备较高的灵活性和可扩展性。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值