【论文阅读】【3d目标检测】Improving 3D Object Detection with Channel-wise Transformer

研究介绍了一种名为CT3D的方法,通过在点云上应用Transformer进行对象检测的改进。论文创新在于将位置编码与特征融合,并提出结合全局和通道局部信息的解码策略。尽管实验显示效果提升有限,但方法强调了对现有单阶段检测器的补充,尤其是在处理局部几何关系时。

标题:Improving 3D Object Detection with Channel-wise Transformer

iccv2021
浙江大学 阿里达摩院 著名的CT3d
文章是在点上进行transformer,前面的文章曾说过在巨大的点云上进行tranformer计算量是巨大的 所以这篇文章玩了点小聪明 利用transformer设计refinement net
文章基于利用原始点的特征足够来进行box refinement的假设来进行行文
老规矩 上图
在这里插入图片描述
可以看到trans主要是用在了编码和解码的阶段
首先作者利用单阶段网络输出的proposals 对它们进行一个尺寸的扩大 具体操作就是将proposal扩展成一个大的圆柱体 圆柱体半径为proposal的对角线 而高度不限制尺寸 在这样的一个圆柱体里 我们随机选择256个point进行transformer
在这里插入图片描述
transformer的结构没啥创新 主要是作者将位置编码与feature进行了一个较为深度的融合 而不是之前工作的pe的简单的相加。
在这里插入图片描述
随后进行256个点的叠加 得到NXD的特征维度

下面是全文的重点 :

在RGB-红外目标检测中,为了提升多模态信息的融合效果,采用从粗到细的融合方法(Coarse-to-Fine Fusion)是一种有效的策略。这一方法的核心思想是模拟人类大脑在处理多模态信息时的过滤与选择机制,即先去除干扰信息,再进行特征的精细选择,从而实现互补特征的有效融合[^1]。 ### 冗余光谱去除(RSR)模块 在“粗”阶段,设计了冗余光谱去除(Redundant Spectrum Removal, RSR)模块。该模块通过将图像转换到频域空间,并引入动态滤波器,以自适应地减少RGB和IR模态中不相关的频谱。这样可以初步过滤掉不必要的冗余信息,保留对目标检测有帮助的关键频谱[^1]。例如,在频域中应用动态滤波器时,可以通过以下代码实现频谱的自适应调整: ```python import numpy as np import cv2 def apply_dynamic_filter(image): # 将图像转换为频域 f = np.fft.fft2(image) fshift = np.fft.fftshift(f) # 动态滤波器设计 rows, cols = image.shape crow, ccol = rows // 2, cols // 2 mask = np.ones((rows, cols), np.uint8) mask[crow - 30:crow + 30, ccol - 30:ccol + 30] = 0 # 动态调整滤波区域 # 应用滤波器 fshift_filtered = fshift * mask f_ishift = np.fft.ifftshift(fshift_filtered) img_back = np.fft.ifft2(f_ishift) img_back = np.abs(img_back) return img_back ``` ### 动态特征选择(DFS)模块 在“细”阶段,设计了动态特征选择(Dynamic Feature Selection, DFS)模块,用于在RGB和IR模态之间精细选择所需的特征。该模块通过探索不同尺度特征的组合,权衡对象检测所需的不同尺度信息,从而进一步提升检测性能。DFS模块能够根据任务需求,自适应地选择最相关的特征,确保最终融合的特征具有更强的判别能力[^1]。 ### 去除与选择检测器(RSDet) 为了验证该融合策略的有效性,构建了一个新的目标检测框架——去除与选择检测器(Removal and Selection Detector, RSDet)。该框架嵌入了从粗到细的融合策略,能够在RGB-红外目标检测任务中实现更优的性能表现。在多个公开的RGB-红外检测数据集上的实验结果表明,RSDet能够有效促进互补融合,并达到了当前最先进的性能水平[^3]。 ### 改进方向 为了进一步提升RGB-红外目标检测的效果,可以从以下几个方面进行改进: - **更精细的频谱分析**:在RSR模块中引入更复杂的频谱分析方法,例如基于深度学习的频谱注意力机制,以提高频谱过滤的精度。 - **多尺度特征融合**:在DFS模块中引入多尺度特征金字塔网络(Feature Pyramid Network, FPN),以更好地捕捉不同尺度的目标特征。 - **端到端优化**:将整个融合过程设计为端到端可训练的结构,使RSR和DFS模块能够协同优化,提升整体检测性能。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值