【MULTISPECTRAL FUSION FOR OBJECT DETECTIONWITH CYCLIC FUSE-AND-REFINE BLOCKS】论文阅读

这篇论文是2020年10月发表在ICIP上的一篇论文

 点击跳转:原文pdf

 点击跳转:代码地址


摘要+介绍部分

文章首先提出要有效地利用不同的光谱,主要的问题在于信息融合过程

总的来说,就是下面这张图


一、提出的方法

(1)融合:

文章提出的融合方法就是把两个模态的特征图先concat+BN+3*3卷积,然后为了防止过拟合,循环中融合部分的3*3卷积都设置一样的权重

其实这里不太懂为什么共享权重可以防止过度拟合!!

(2)细化:

细化就是将融合的特征图和单一模态特征图逐元素相加后再经过一个激活函数,即得到细化后的单一模态特征图

(3)语义分割监督:

 图中对每一个经过细化后的特征图都引入了语义分割辅助监督信息,帮助网络去更好的优化

并且语义分割信息可以帮助决定何时特征图的一致性和互补性达到了平衡,从而不再进行循环

(4)最终的融合

二、实现细节

1.数据集

数据集采用清洗过后的KAIST数据集(消除了注释错误的)和FLIR数据集(这里只选取了包含car、person、bicycle三类;并且手动删除了没有对齐的图像对)

2.结果图

为了公平起见,分别使用清洗过后的数据集和未清洗的数据集的比较结果

3.循环次数的图 

 可以看到,在采用3次循环时,效果最好

欢迎大家批评指正!!!!

### 跨模态注意力特征融合在多光谱遥感影像目标检测中的实现技术 跨模态注意力特征融合(Cross-Modality Attentive Feature Fusion, CM-AFF)是一种用于提升多源数据处理性能的技术,在多光谱遥感影像的目标检测领域具有重要价值。以下是该方法的核心技术和实施细节: #### 1. 数据预处理与特征提取 为了有效利用多光谱遥感影像的不同波段特性,通常采用卷积神经网络(CNN)作为基础模型来提取空间和频域特征。通过设计双通道或多通道结构,可以分别针对不同类型的输入数据进行独立的特征学习[^1]。 ```python import torch.nn as nn class DualChannelFeatureExtractor(nn.Module): def __init__(self): super(DualChannelFeatureExtractor, self).__init__() self.channel_1 = nn.Sequential( nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3), nn.ReLU(), nn.MaxPool2d(kernel_size=2) ) self.channel_2 = nn.Sequential( nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3), nn.ReLU(), nn.MaxPool2d(kernel_size=2) ) def forward(self, x1, x2): f1 = self.channel_1(x1) f2 = self.channel_2(x2) return f1, f2 ``` #### 2. 注意力机制的设计 CM-AFF的关键在于引入注意力模块以增强相关区域的重要性并抑制无关背景干扰。具体来说,可以通过计算两个模态之间的相似度矩阵,并基于此调整权重分布[^2]。 ```python def attention_fusion(feature_map1, feature_map2): similarity_matrix = torch.matmul(feature_map1.permute(0, 2, 3, 1).view(-1, feature_map1.size()[1]), feature_map2.view(-1, feature_map2.size()[1]).t()) weight_vector = F.softmax(similarity_matrix, dim=-1) fused_feature = torch.mm(weight_vector.t(), feature_map1.view(-1, feature_map1.size()[1])) return fused_feature.reshape_as(feature_map2) ``` #### 3. 特征级联与分类器构建 经过上述步骤获得融合后的特征表示后,将其送入全连接层或者更复杂的预测头完成最终的任务需求——即定位感兴趣对象的位置及其类别标签信息输出过程。 --- #### 实验验证与评估指标 对于实际应用场景下的效果评测而言,常用的定量分析手段包括但不限于精确率(Precision),召回率(Recall)以及F1分数等综合考量标准;同时定性的可视化对比也能直观反映算法优劣之处. ---
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值