即插即用特征融合FACMA和WCMF模块,涨点起飞

题目:FCMNet: Frequency-aware cross-modality attention networks for RGB-D salient object detection

论文地址:

 https://www.sciencedirect.com/science/article/abs/pii/S0925231222003848

创新点

  • 频域跨模态注意力模块 (FACMA):作者提出了一种频率感知的跨模态注意力模块,以增强和选择 RGB 和深度图的互补特征。该模块设计了一个空间频率通道注意力(SFCA)子模块,能够在空间和频率域中提取互补信息。这一模块从频域角度出发,不同于传统的仅基于空间和通道的注意力机制,能够更好地保留不同模态之间的特征互补性。

  • 加权跨模态融合模块 (WCMF):为了提高融合效果,作者提出了一个加权跨模态融合模块,通过学习内容相关的权重图来自适应地融合不同模态的特征,弱化低质量深度图的影响。此外,该模块还通过非线性特征增强(NFE)单元提高了融合过程中网络的非线性表示能力。

  • 性能对比与效果验证:论文在八个基准数据集上进行了实验,并与17种最新的 RGB-D 显著性检测方法进行对比,在四种评价指标(如 S-measure、F-measure、MAE 和 E-measure)上均取得了最佳或接近最佳的结果,这展示了所提出模型的有效性和鲁棒性。

方法

整体结构

       该论文提出的模型(FCMNet)采用双流编解码结构,由RGB和深度两个对称的VGG-16网络构成。通过频域跨模态注意力模块(FACMA)从RGB和深度模态中提取和增强互补特征,再利用加权跨模态融合模块(WCMF)进行内容自适应的融合,确保低质量深度图的干扰最小化。解码器使用膨胀空间金字塔池化模块逐步整合多尺度特征,同时加入边缘监督以提升显著性目标的边缘细节,从而实现高精度的RGB-D显著性检测。

  • 输入与编码器:模型输入为RGB图像和深度图像。为了匹配维度,深度图像被复制成三个通道。编码器由两个对称的VGG-16网络组成,分别提取RGB和深度的特征,每一层的输出特征被定义为FRGBiF^i_{RGB}和FDiF^i_D。

  • 频域跨模态注意力模块 (FACMA):编码器输出的特征首先进入FACMA模块,该模块通过空间频率通道注意力(SFCA)模块从RGB和深度两个模态中提取互补特征。在此过程中,RGB特征和深度特征在空间和频率域内进行相互作用,以确保模型能够捕获两种模态的独特信息。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值