结合交叉注意力与特征融合,轻松拿捏B会,附代码分享

2024深度学习发论文&模型涨点之——交叉注意力机制+特征融合

交叉注意力机制+特征融合是一种在多模态学习领域中非常重要的技术,它通过注意力机制在不同模态之间建立联系,促进信息的交流和整合。这种机制能够显著提升模型处理多模态数据的能力,尤其在图像融合、目标检测、点云分割等多个领域展现出强大的优势。

特征融合,利用交叉注意力的输出,将不同模态的特征进行融合。这种融合可以是加权的,其中权重由交叉注意力机制确定,以反映不同特征的重要性。

如果有同学想发表相关论文,小编整理了一些交叉注意力融合【论文】合集,以下放出部分,全部论文PDF版,需要的同学公重号【AI科研灵感】回复“交叉注意力融合”即可全部领取

论文精选

论文1:

ICAFusion: Iterative Cross-Attention Guided Feature Fusion for Multispectral Object Detection

迭代交叉注意力引导的特征融合用于多光谱目标检测

方法

  • 双交叉注意力变换器框架:提出了一种新颖的特征融合框架,通过模拟全局特征交互和捕获跨模态的互补信息来增强对象特征的可区分性。

  • 查询引导的交叉注意力机制:通过查询引导的交叉注意力机制增强不同模态之间的特征交互,提高性能。

  • 迭代交互机制:受人类复习知识过程的启发,提出了一种迭代交互机制,在块间多模态变换器中共享参数,降低模型复杂性和计算成本。

  • 一般性和有效性:提出的方法可以集成到不同的检测框架中,并与不同的骨干网络一起使用。

图片

创新点

  • 双交叉注意力特征融合方法:首次提出同时聚合RGB和热图像的互补信息的双交叉注意力特征融合方法。

  • 迭代学习策略:提出了一种迭代学习策略,用于有效的多光谱特征融合,进一步提高模型性能而不增加可学习参数。

  • 通用性和效果:提出的特征融合方法具有通用性和有效性,可以插入到不同的骨干网络中,并配备不同的检测框架。

  • CFE/ICFE模块的多功能性:提出的CFE/ICFE模块可以处理不同的输入图像模态,为缺少某种模态或图像质量较差时提供可行的解决方案。

  • 快速推理速度:提出的方法在KAIST、FLIR和VEDAI数据集上实现了最先进的结果,同时也获得了非常快的推理速度。

图片

论文2:

MMViT: Multiscale Multiview Vision Transformers

MMViT:多尺度多视图视觉变换器

方法

  • 多尺度特征图和多视图编码:引入多尺度特征图和多视图编码到变换器模型中,处理输入信号的不同视图。

  • 跨注意力块:在每个尺度阶段使用跨注意力块来融合不同视图之间的信息。

  • 层次缩放系统:通过增加通道大小和减少空间分辨率来生成高维复杂特征。

  • 音频和图像分类任务:展示了MMViT在音频和图像分类任务中的有效性,并将图像模型学习到的知识转移到音频分类任务中。

图片

创新点

  • 结合MViT和MTV模型的优势:MMViT结合了多视图变换器(MTV)和多尺度视觉变换器(MViT)的优势,通过在多尺度阶段层次结构模型中输入多个视图。

  • 跨注意力层:在每个尺度阶段引入跨注意力层,合并不同分辨率视图的信息,使网络能够捕获复杂的高维特征。

  • 多尺度和多视图特征:通过使用多尺度和多视图特征,MMViT模型增强了其表示学习能力和整体性能。

  • 适用性:提出的MMViT模型适用于其他模态,如视频和文本,为表示学习提供了一种新的有效方法,并可广泛应用于各种下游应用,包括视频识别和目标检测。

图片


论文3:

Rethinking Cross-Attention for Infrared and Visible Image Fusion

重新思考红外和可见光图像融合的交叉注意力

方法

  • 交叉注意力机制的重新评估:提出了一种新的Transformer融合网络(ATFuse),通过修改传统的交叉注意力机制来提取源图像的差异信息。

  • 差异信息注入模块(DIIM):设计了一个基于修改的交叉注意力机制的模块,以促进源图像差异信息的提取。

  • 交替公共信息注入模块(ACIIM):通过交替使用传统的交叉注意力机制,设计了一个模块,可以充分挖掘公共信息并整合长期依赖关系。

  • 分段像素损失函数:提出了一个基于不同像素强度约束的分段像素损失函数,用于训练ATFuse,以在融合结果中实现纹理细节和亮度信息的平衡。

图片

创新点

  • ATFuse网络的提出:提出了一种端到端的ATFuse网络,用于红外和可见光图像的融合,通过多个数据集的广泛实验展示了良好的效果和泛化能力。

  • 差异信息注入模块(DIIM)的提出:基于交叉注意力机制提出了DIIM,可以分别探索源图像的独特特征。

  • 交替公共信息注入模块(ACIIM)的应用:在提出的框架中应用了ACIIM,以在最终结果中充分保留公共信息。

  • 分段像素损失函数的设计:设计了一个由不同像素强度约束组成的分段像素损失函数,以训练ATFuse,使融合结果中的纹理细节和亮度信息达到良好的平衡。

图片


论文4:

2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level Supervision

具有场景级监督的2D-3D交错Transformer用于点云分割

方法

  • 多模态交错Transformer(MIT):提出了一个具有两个编码器和一个解码器的Transformer模型,用于仅使用场景级类标签的弱监督点云分割。

  • 3D点云和2D多视图图像的特征提取:两个编码器分别计算3D点云和2D多视图图像的自注意力特征。

  • 交错2D-3D交叉注意力和特征融合:解码器实现交错2D-3D交叉注意力,并执行隐式2D和3D特征融合。

  • 查询和键值对的角色交替:在解码器层中交替切换查询和键值对的角色,使2D和3D特征相互迭代丰富。

图片

创新点

  • 场景级监督下的2D-3D信息融合:据我们所知,这是首次尝试在场景级监督下融合2D-3D信息进行点云分割。

  • 多模态交错Transformer(MIT)的提出:通过交错注意力隐式融合2D-3D信息,不依赖于相机姿态信息。

  • 对比损失的开发:开发了一种对比损失,用于跨模态对齐类标记。

  • 性能优越:在大规模ScanNet和S3DIS基准测试中,与现有方法相比,MIT在弱监督点云分割任务上取得了显著的性能提升。

图片

如果有同学想发表相关论文,小编整理了一些交叉注意力融合【论文】合集。

需要的同学公重号【AI科研灵感】回复“交叉注意力融合”即可全部领取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值