《InfMAE: A Foundation Model in Infrared Modality》CVPR2024

博客探讨了基础模型与大模型,指出大模型即基础模型,具有大规模参数和复杂计算结构,后续研究需将二者耦合。还提及多光谱、红外、可见光的基础模型架构及差异研究,以及利用跨模态基础模型开展领域基础研究。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

基础模型vs大模型:大模型,也称基础模型,是指具有大规模参数和复杂计算结构的机器学习模型

以后的研究中必须把大模型和基础模型耦合进来

总结:占坑

1. A+B

多光谱的基础模型

红外的基础模型

可见光的基础模型

整体架构差不多,不一样的地方值得研究,就可以考虑A+B

2. 利用跨模态的基础模型去做我们领域的基础研究

### DenseFuse 方法的技术细节 DenseFuse 是一种专门针对红外图像和可见光图像融合提出的深度学习框架[^1]。该方法通过构建一个多尺度密集连接网络,实现对两种模态图像的有效融合。 #### 多尺度特征提取 DenseFuse 利用了卷积神经网络(CNN)强大的特征表达能力,采用多尺度结构来捕捉不同层次的空间信息。具体来说,输入的红外图像和可见光图像会经过多个卷积层处理,每一层都会生成一组特征图谱。这些特征图不仅包含了局部纹理信息,还能够反映全局语义特性。 ```python import torch.nn as nn class MultiScaleFeatureExtractor(nn.Module): def __init__(self, num_channels=1): super(MultiScaleFeatureExtractor, self).__init__() self.conv1 = nn.Conv2d(num_channels, 64, kernel_size=3, stride=1, padding=1) # 更多卷积层... def forward(self, x): out = F.relu(self.conv1(x)) # 继续前向传播... return out ``` #### 密集连接的设计理念 不同于传统的 CNN 架构,DenseFuse 引入了密集连接的思想,使得每层都可以直接接收到来自前面所有层的信息传递。这种设计有助于缓解梯度消失问题,并促进更深层次之间的信息交流。此外,它还能增强模型的学习能力和泛化性能。 #### 融合策略的选择 对于最终的图像融合过程,DenseFuse 设计了几种不同的融合策略供选择: - **加法策略**:简单地将两个源图像对应的像素值相加以获得新的强度分布; - **L1-Norm 策略**:计算两幅图片间绝对差值作为权重系数来进行线性组合; 这两种方案各有优劣,在实际应用中可以根据需求灵活选用合适的算法。 #### 训练流程概述 整个训练过程中,DenseFuse 使用 L1 Loss 来衡量重建误差,并借助 Adam Optimizer 进行参数更新。值得注意的是,由于采用了端到端的方式,所以无需额外的手动调整或预设条件即可完成高质量的结果输出。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值