即插即用特征融合FACMA和WCMF模块，涨点起飞

最新推荐文章于 2025-03-05 10:00:00 发布

Angelina_Jolie

最新推荐文章于 2025-03-05 10:00:00 发布

阅读量2.3k

点赞数 20

分类专栏：即插即用模块计算机视觉文章标签：计算机视觉

本文链接：https://blog.youkuaiyun.com/Angelina_Jolie/article/details/143306164

版权

题目：FCMNet: Frequency-aware cross-modality attention networks for RGB-D salient object detection

论文地址:

https://www.sciencedirect.com/science/article/abs/pii/S0925231222003848

创新点

频域跨模态注意力模块 (FACMA)：作者提出了一种频率感知的跨模态注意力模块，以增强和选择 RGB 和深度图的互补特征。该模块设计了一个空间频率通道注意力（SFCA）子模块，能够在空间和频率域中提取互补信息。这一模块从频域角度出发，不同于传统的仅基于空间和通道的注意力机制，能够更好地保留不同模态之间的特征互补性。
加权跨模态融合模块 (WCMF)：为了提高融合效果，作者提出了一个加权跨模态融合模块，通过学习内容相关的权重图来自适应地融合不同模态的特征，弱化低质量深度图的影响。此外，该模块还通过非线性特征增强（NFE）单元提高了融合过程中网络的非线性表示能力。
性能对比与效果验证：论文在八个基准数据集上进行了实验，并与17种最新的 RGB-D 显著性检测方法进行对比，在四种评价指标（如 S-measure、F-measure、MAE 和 E-measure）上均取得了最佳或接近最佳的结果，这展示了所提出模型的有效性和鲁棒性。

方法

整体结构

该论文提出的模型（FCMNet）采用双流编解码结构，由RGB和深度两个对称的VGG-16网络构成。通过频域跨模态注意力模块（FACMA）从RGB和深度模态中提取和增强互补特征，再利用加权跨模态融合模块（WCMF）进行内容自适应的融合，确保低质量深度图的干扰最小化。解码器使用膨胀空间金字塔池化模块逐步整合多尺度特征，同时加入边缘监督以提升显著性目标的边缘细节，从而实现高精度的RGB-D显著性检测。

输入与编码器：模型输入为RGB图像和深度图像。为了匹配维度，深度图像被复制成三个通道。编码器由两个对称的VGG-16网络组成，分别提取RGB和深度的特征，每一层的输出特征被定义为FRGBiF^i_{RGB}和FDiF^i_D。
频域跨模态注意力模块 (FACMA)：编码器输出的特征首先进入FACMA模块，该模块通过空间频率通道注意力（SFCA）模块从RGB和深度两个模态中提取互补特征。在此过程中，RGB特征和深度特征在空间和频率域内进行相互作用，以确保模型能够捕获两种模态的独特信息。

最低0.47元/天解锁文章