RGB-D Salient Object Detection with Cross-Modality Modulation and Selection学习笔记

本文提出了一种结合RGB图像和深度图的显著目标检测方法,通过交叉模态调制(cmFM)增强特征表示,使用适应性特征选择(AFS)关注显著性特征,并利用显著性引导的位置边缘注意模组(sg-PEA)提高检测精度。cmFM学习深度图的传输参数以调节RGB图像,AFS结合空间和信道注意力选择关键特征,而sg-PEA则通过位置和边缘注意提升边缘清晰度。
部署运行你感兴趣的模型镜像

**

一、本文要解决的问题


1.有效的整合RGB图像和其对应的深度图的互补信息。
2.选择显著性特征。**
**

二、解决方案

**
1.通过深度特征优先创建交叉调节特征(cmFM)模型提高特征表现。
2.用可适应的特征选择(AFS)选择显著性特征,并且抑制次级特征。
3.用显著性引导位置边缘注意模组(sg-PEA)提高注意。

将特征调节机制和注意力机制想配合。
**

三、新的技术

**
图1
1.cmFM

cmFM
cmFM是一个以深度特征先验的模型,它从深度图中学习传输参数并用得到的参数去调节对应的RGB图像以获得其显著性特征。深度图将会传入两个卷积块中,分别获得其权重和偏移量,但是后续实验表明该模块达到的效果并不如cmFA模块,这个模块不是cmMS模型的核心。
2.AFS
在这里插入图片描述
该模型引入了注意力机制,目的就是在训练学习中分配更多的权重给需要检测的目标。AFS模型由空间选择和信道选择组成。将RGB、深度、上卷积和经过cmFs调节输出的特征信息等特征信息先传入SE-NET中,经过SE-Net的Squeeze和Excitation操作后获得各个特征信息的需要激励的重要特征。然而单纯的使用SE-NET还不能获得各个特征图像之间的关联性。我们选择将这些特征信息各自传入一个卷积块中提取特征并将他们串联后再次将他们送入一个SE-NET中,再经过一个卷积层后就获得了信道注意力特征。
接下来进行空间选择,将多模态信息融合在一起进行特征提取获取各自的置信图,然后将置信图和多模态特征做叉乘后送入一个卷积层,将输出后的信息与信道选择输出的信息融合获得显著性相关特征。
3.sg-PEA
sg-PEA由两个单元组成, saliency map prediction (S-Pre)和 a saliency edge prediction
(E-Pre),在这两个模块中分别用到了位置注意和边缘注意,以达到加快收敛和减轻边缘模糊。
,在S-Pre用一种监督学习的方式预测显著图。位置注意力可以通过读取高层的显著属性来提高本层的显著性信息。

您可能感兴趣的与本文相关的镜像

AutoGPT

AutoGPT

AI应用

AutoGPT于2023年3月30日由游戏公司Significant Gravitas Ltd.的创始人Toran Bruce Richards发布,AutoGPT是一个AI agent(智能体),也是开源的应用程序,结合了GPT-4和GPT-3.5技术,给定自然语言的目标,它将尝试通过将其分解成子任务,并在自动循环中使用互联网和其他工具来实现这一目标

### HiDAnet:RGB-D显著物体检测方法及其层级深度感知机制 HiDAnet 是一种用于 RGB-D 显著物体检测的深度学习框架,其核心思想是通过整合 RGB 图像和深度信息来提升显著性目标检测的准确性[^3]。该方法引入了层级深度感知机制(Hierarchical Depth Awareness Method),以充分利用不同层次的深度特征。 #### 1. 层级深度感知机制 HiDAnet 的层级深度感知机制旨在捕捉不同尺度上的深度信息,并将其与视觉特征相结合。具体而言,这种方法通过以下方式实现: - **多尺度深度特征提取**:利用卷积神经网络(CNN)从深度图中提取多尺度特征。这些特征被设计为与 RGB 特征具有相同的分辨率,从而便于后续融合[^3]。 - **深度加权融合**:通过学习一个深度权重图,将深度特征与 RGB 特征进行逐像素加权融合。这种融合方式能够确保深度信息在不同场景下的适应性[^4]。 - **跨层信息交互**:通过引入跳跃连接(skip connection),HiDAnet 将高层次语义信息与低层次细节信息相结合,从而增强模型对复杂场景的理解能力[^5]。 #### 2. HiDAnet 的网络结构 HiDAnet 的网络结构可以分为以下几个关键模块: - **RGB 特征提取模块**:使用标准的 CNN 架构(如 ResNet 或 VGG)从输入的 RGB 图像中提取特征。 - **深度特征提取模块**:采用类似的 CNN 结构处理深度图,生成多尺度深度特征。 - **特征融合模块**:结合上述两种特征,通过层级深度感知机制生成最终的显著性图[^6]。 - **后处理模块**:对生成的显著性图进行优化,例如通过边缘增强或非极大值抑制提升检测结果的质量。 #### 3. 实验结果与优势 HiDAnet 在多个公开数据集上表现出色,尤其是在包含复杂背景或遮挡的场景中。其主要优势包括: - **鲁棒性**:通过层级深度感知机制,HiDAnet 能够有效应对光照变化、遮挡等问题[^7]。 - **高效性**:相比其他 RGB-D 显著物体检测方法,HiDAnet 的计算开销较低,适合实时应用[^8]。 - **泛化能力**:由于采用了多尺度特征融合策略,HiDAnet 在不同类型的场景中均能保持较高的检测精度[^9]。 ```python import torch import torch.nn as nn class HiDAnet(nn.Module): def __init__(self): super(HiDAnet, self).__init__() # RGB 特征提取模块 self.rgb_extractor = nn.Sequential( nn.Conv2d(3, 64, kernel_size=3, padding=1), nn.ReLU(), nn.Conv2d(64, 128, kernel_size=3, padding=1), nn.ReLU() ) # 深度特征提取模块 self.depth_extractor = nn.Sequential( nn.Conv2d(1, 64, kernel_size=3, padding=1), nn.ReLU(), nn.Conv2d(64, 128, kernel_size=3, padding=1), nn.ReLU() ) # 特征融合模块 self.fusion_layer = nn.Conv2d(256, 128, kernel_size=1) def forward(self, rgb, depth): rgb_features = self.rgb_extractor(rgb) depth_features = self.depth_extractor(depth) fused_features = torch.cat([rgb_features, depth_features], dim=1) output = self.fusion_layer(fused_features) return output ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值