Exploring Object Centric Temporal Modeling for Efficient Multi View 3D Object Detection

全文摘要

本文提出了一种名为StreamPETR的长序列建模框架,用于多视角三维物体检测。该模型基于PETR系列中的稀疏查询设计,并系统地开发了对象中心的时序机制。模型以在线方式运行,通过对象查询逐帧传播长期历史信息。此外,引入了一个运动感知层归一化来建模物体的移动。StreamPETR在与单帧基线相比仅带来微小计算成本的情况下实现了显著的性能提升。在标准nuScenes基准上,它是第一个实现与激光雷达方法相当表现(67.6%NDS和65.3%AMOTA)的在线多视角方法。轻量级版本实现了45.0%mAP和31.7FPS,优于最先进的方法(SOLOFusion),提高了2.3%的mAP和1.8倍的FPS。代码已在https://github.com/exiawsh/StreamPETR.git中提供。

论文方法

方法描述

该论文提出了一种基于记忆队列的时空交互网络(StreamPETR),用于多视角三维目标检测。该方法利用了时空信息来提高模型性能,并采用了自适应的记忆队列机制来处理长期时空依赖关系。

具体来说,StreamPETR包括三个主要组件:图像编码器、递归更新的记忆队列和传播变换器。首先,图像编码器使用标准的二维卷积神经网络从多个视角提取语义特征。然后,将提取的特征、存储在记忆队列中的信息以及对象查询一起输入到传播变换器中,以执行空间-时间交互。记忆队列是一个灵活且可定制的结构,可以根据需要控制最大内存大小和保存间隔。

方法改进

与单帧基准相比,StreamPETR的主要改进在于引入了记忆队列。通过递归地更新物体查询的时间信息,StreamPETR可以更有效地捕捉长期时空依赖关系。此外,StreamPETR还采用了运动感知层归一化模块来建模物体的移动,从而更好地预测其位置和速度。

解决的问题

该方法解决了多视角三维目标检测中的时空交互问题。通过引入记忆队列和运动感知层归一化模块,StreamPETR能够更准确地预测物体的位置和速度,从而提高了模型的性能。同时,该方法还具有较高的灵活性和可定制性,用户可以根据需要调整最大内存大小和保存间隔。

论文实验

本文主要介绍了在大规模NuScenes和Waymo Open数据集上,作者提出的StreamPETR方法与之前的方法进行了比较实验,并给出了详细的实验结果和分析。

首先,在NuScenes数据集上,作者使用了ResNet50、ResNet101、V2-99和ViT等不同类型的骨干网络,并采用了不同的预训练方式(ImageNet、nuImages和Objects365等),对StreamPETR进行了实验。在NuScenes的val和test集上,StreamPETR相比于之前的视觉3D检测器取得了更好的性能,尤其是在mAP和NDS等指标上。此外,StreamPETR还具有更快的推理速度,达到了1.8倍的速度提升。

其次,在Waymo Open数据集上,作者将StreamPETR与其他密集BEV方法(如BEVFormer++和MV-FCOS3D++)进行了比较。实验结果显示,StreamPETR在官方指标上表现更好,尤其是在长距离预测方面。此外,作者还实现了PETR-DN和PETRv2作为基准模型,并将其与StreamPETR进行了比较。实验结果表明,StreamPETR比单帧模型PETR-DN在mAP、mAPL和mAP-H等指标上都有明显的提高。

最后,作者还进行了多个Ablation Study来探究StreamPETR的一些关键设计。例如,通过改变训练序列长度和运动感知层归一化的设计,作者发现StreamPETR对于长期依赖建模的能力更强,而动态属性对于物体查询之间的交互也有积极的影响。

综上所述,StreamPETR在大规模数据集上的实验结果表明其具有较高的性能和较快的推理速度,同时也具有一定的可扩展性和适应性。


全文翻译

摘要

本文提出了一种多视图三维物体检测的长序列建模框架,称为StreamPETR。该框架建立在PETR系列稀疏查询设计的基础上,并系统地开发了一个以对象为中心的时间机制。模型在线执行,并通过对象查询逐帧传播长期历史信息。此外,我们引入了运动感知层规范化来建模物体的移动。与单帧基线相比,仅需微小计算成本,StreamPETR就实现了显著性能提升。在标准nuScenes基准上,它首次实现与基于激光雷达的方法相当的性能(67.6% NDS & 65.3%AMOTA)。轻量级版本实现了45.0%mAP和31.7FPS,比最先进的方法(SOLOFusion)高出2.3%mAP并快1.8倍。代码可在https://github.com/exiawsh/StreamPETR.git中获得。

1、简介

在这里插入图片描述

图1所示。不同的时间融合方法从鸟瞰图空间、透视视图和我们提出的以对象为中心。RF表示感受野。实线和虚线分别表示空间和时间操作。

仅使用相机的三维检测对于自动驾驶至关重要,因为其部署成本低且易于检测道路元素

### 数据增强技术在多模态3D目标检测中的应用 对于多模态3D目标检测,在计算机视觉领域内,数据增强方法旨在通过变换输入数据来增加模型训练的有效样本数量并提升泛化能力。具体到多模态场景下,这些方法不仅涉及图像层面的操作,还包括点云和其他传感器信号的处理。 #### 图像域的数据增强 传统的二维图像上的几何变换同样适用于基于摄像头获取的RGB图片或热成像图等: - **随机裁剪与缩放**:通过对原始图像执行不同尺度下的裁切操作,可以模拟远近变化的效果[^1]。 - **颜色抖动**:调整亮度、对比度、饱和度等因素有助于提高算法应对复杂光照条件的能力。 ```python import torchvision.transforms as transforms transform = transforms.Compose([ transforms.RandomResizedCrop(size=(224, 224), scale=(0.8, 1.2)), transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2), ]) ``` #### 点云域的数据增强 针对LiDAR或其他雷达设备产生的三维空间坐标集合——即点云数据,则有专门设计的技术手段用于扩充其多样性: - **旋转和平移扰动**:沿任意轴向施加微小角度偏转或是位移量级内的变动能够有效防止过拟合现象的发生。 - **噪声注入**:引入高斯分布形式的小幅波动至各维度数值上,以此检验网络结构鲁棒性的强弱程度。 ```python import numpy as np def apply_noise(points, sigma=0.01): noise = np.random.normal(scale=sigma, size=points.shape) noisy_points = points + noise return noisy_points ``` #### 跨模态联合增强策略 考虑到多种感知源之间可能存在关联性特征共享的情况,跨模态同步实施相同类型的转换动作显得尤为重要。比如当对相机视角做水平翻转变换时,也应相应地改变激光雷达所记录下来的物体朝向信息;同理,在调节色彩参数的同时保持其他物理属性不变等等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值