论文1
Multi-Modality Cross Attention Network for Image and Sentence Matching
用于图像和句子匹配的多模态交叉注意力网络
方法:
-
自注意力模块:利用Transformer单元对图像区域和句子词进行建模,以捕捉模态内部的关系。图像区域通过预训练的bottom-up注意力模型提取特征,句子词则使用BERT模型进行编码。
-
交叉注意力模块:将图像区域和句子词的特征堆叠后输入Transformer单元,通过交叉注意力机制同时考虑模态间和模态内的关系,以增强图像和句子的匹配能力。
-
特征聚合:采用1D-CNN和池化操作对特征进行聚合,得到图像和句子的全局表示。
-
双向三元组损失:通过硬负样本挖掘优化模型参数,使匹配的图像和句子对的相似度高于不匹配的对。
创新点:
-
联合建模模态内外关系:首次在统一的深度模型中同时建模图像区域和句子词的模态内和模态间关系,提升了特征的判别能力。
-
性能提升:在Flickr30K数据集上,图像到句子检索的R@1、R@5、R@10指标分别达到74.2%、92.8%、96.4%,句子到图像检索的R@1、R@5、R@10指标分别达到54.8%、81.4%、87.8%,在MS-COCO数据集上,图像到句子检索的R@1指标比最佳基线提高了3.6%,句子到图像检索的R@1指标提高了3.8%。
-
注意力机制的创新应用:提出的交叉注意力模块能够同时利用模态内和模态间的关系,为图像和句子匹配任务提供了新的视角和方法。

论文2
Feature Fusion Based on Mutual-Cross-Attention Mechanism for EEG Emotion Recognition
基于互交叉注意力机制的EEG情绪识别特征融合
方法:
-
数据预处理:采用Notch滤波器消除50 Hz干扰,设置4-45 Hz带通滤波器,并通过独立成分分析(ICA)去除噪声。
-
特征提取:在五个不同的频率带中提取差分熵(DE)和功率谱密度(PSD)特征。
-
互交叉注意力机制(MCA):将DE和PSD分别作为键和查询向量,通过双向的缩放点积注意力操作进行特征融合。
-
3D-CNN分类:设计了一种特殊的3D-CNN结构,用于处理融合后的特征,并进行情绪分类。
创新点:
-
互交叉注意力机制:首次提出了一种纯数学的特征融合方法,能够从两个特征的方向应用注意力机制,实现了DE和PSD特征的有效融合。
-
新3D特征表示:开发了独特的Channel-Frequency-Time 3D特征结构,同时呈现频谱和时间信息,提高了特征的表达能力。
-
性能提升:在DEAP数据集上,情绪识别的准确率达到了99.49%(情绪价值)和99.30%(唤醒度),相较于其他SOTA方法有显著提升。

论文3
CAFF-DINO: Multi-spectral object detection transformers with cross-attention features fusion
用于多光谱目标检测的具有交叉注意力特征融合的变换器
方法:
-
交叉注意力特征融合(CAFF):在每个抽象层次上,对红外和可见光特征图进行层次化的交叉注意力操作,以提取两者之间的关联信息。
-
DINO检测器:使用DINO检测器作为基于变换器的目标检测头,结合融合后的特征进行目标检测。
-
特征融合模块:通过1×1卷积操作将融合后的特征调整为适合检测头的维度。
-
模型架构:由两个单光谱特征提取器、多个融合模块和一个变换器检测头组成,实现从融合特征中进行目标检测。
创新点:
-
交叉注意力机制:首次在红外-可见光图像对融合中应用交叉注意力机制,有效提取两种模态之间的关联信息。
-
性能提升:在LLVIP数据集上,与CFT-YOLOv5相比,mAP提高了4.9%;在FLIR-aligned数据集上,与ICA-Fusion模型相比,mAP提高了9.1%。
-
鲁棒性:对图像对的系统性错位具有较强的鲁棒性,能够在图像对存在错位的情况下保持较高的检测性能。
-
通用性:该模型架构通用性强,可快速应用于大多数单模态变换器检测器。

论文4
2D-3D Interlaced Transformer for Point Cloud Segmentation with Scene-Level Supervision
具有场景级监督的2D-3D交错变换器用于点云分割
方法:
-
多模态交错变换器(MIT):通过两个编码器和一个解码器联合考虑2D和3D数据,实现弱监督点云分割。
-
编码器-解码器架构:编码器分别计算3D点云和2D多视图图像的自注意力特征,解码器通过交错的2D-3D交叉注意力实现特征融合。
-
交叉注意力机制:在解码器的不同层中交替切换查询和键值对的角色,使2D和3D特征相互丰富。
-
对比损失:开发对比损失以对齐不同模态之间的类别标记。
创新点:
-
首次尝试:首次在场景级监督下融合2D-3D信息进行点云分割。
-
性能提升:在ScanNet数据集上,mIoU达到35.8%,在S3DIS数据集上,mIoU达到31.7%,显著优于现有的弱监督点云分割方法。
-
无需额外标注:无需额外的2D图像标注,仅使用场景级类别标签即可实现有效的2D-3D特征融合。
-
对比损失:通过对比损失对齐不同模态的类别标记,进一步提升了模型的性能

更多完整版论文关注公人人人号:AI科技探寻领取【论文+开源码】
6765

被折叠的 条评论
为什么被折叠?



