Exploring Object Centric Temporal Modeling for Efficient Multi View 3D Object Detection

最新推荐文章于 2025-11-22 20:52:28 发布

原创

最新推荐文章于 2025-11-22 20:52:28 发布 · 893 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#3d #目标检测 #人工智能 #深度学习 #计算机视觉

全文摘要

本文提出了一种名为StreamPETR的长序列建模框架，用于多视角三维物体检测。该模型基于PETR系列中的稀疏查询设计，并系统地开发了对象中心的时序机制。模型以在线方式运行，通过对象查询逐帧传播长期历史信息。此外，引入了一个运动感知层归一化来建模物体的移动。StreamPETR在与单帧基线相比仅带来微小计算成本的情况下实现了显著的性能提升。在标准nuScenes基准上，它是第一个实现与激光雷达方法相当表现（67.6％NDS和65.3％AMOTA）的在线多视角方法。轻量级版本实现了45.0％mAP和31.7FPS，优于最先进的方法（SOLOFusion），提高了2.3％的mAP和1.8倍的FPS。代码已在https://github.com/exiawsh/StreamPETR.git中提供。

论文方法

方法描述

该论文提出了一种基于记忆队列的时空交互网络（StreamPETR），用于多视角三维目标检测。该方法利用了时空信息来提高模型性能，并采用了自适应的记忆队列机制来处理长期时空依赖关系。

具体来说，StreamPETR包括三个主要组件：图像编码器、递归更新的记忆队列和传播变换器。首先，图像编码器使用标准的二维卷积神经网络从多个视角提取语义特征。然后，将提取的特征、存储在记忆队列中的信息以及对象查询一起输入到传播变换器中，以执行空间-时间交互。记忆队列是一个灵活且可定制的结构，可以根据需要控制最大内存大小和保存间隔。

方法改进

与单帧基准相比，StreamPETR的主要改进在于引入了记忆队列。通过递归地更新物体查询的时间信息，StreamPETR可以更有效地捕捉长期时空依赖关系。此外，StreamPETR还采用了运动感知层归一化模块来建模物体的移动，从而更好地预测其位置和速度。

解决的问题

该方法解决了多视角三维目标检测中的时空交互问题。通过引入记忆队列和运动感知层归一化模块，StreamPETR能够更准确地预测物体的位置和速度，从而提高了模型的性能。同时，该方法还具有较高的灵活性和可定制性，用户可以根据需要调整最大内存大小和保存间隔。

论文实验

本文主要介绍了在大规模NuScenes和Waymo Open数据集上，作者提出的StreamPETR方法与之前的方法进行了比较实验，并给出了详细的实验结果和分析。

首先，在NuScenes数据集上，作者使用了ResNet50、ResNet101、V2-99和ViT等不同类型的骨干网络，并采用了不同的预训练方式（ImageNet、nuImages和Objects365等），对StreamPETR进行了实验。在NuScenes的val和test集上，StreamPETR相比于之前的视觉3D检测器取得了更好的性能，尤其是在mAP和NDS等指标上。此外，StreamPETR还具有更快的推理速度，达到了1.8倍的速度提升。

其次，在Waymo Open数据集上，作者将StreamPETR与其他密集BEV方法（如BEVFormer++和MV-FCOS3D++）进行了比较。实验结果显示，StreamPETR在官方指标上表现更好，尤其是在长距离预测方面。此外，作者还实现了PETR-DN和PETRv2作为基准模型，并将其与StreamPETR进行了比较。实验结果表明，StreamPETR比单帧模型PETR-DN在mAP、mAPL和mAP-H等指标上都有明显的提高。

最后，作者还进行了多个Ablation Study来探究StreamPETR的一些关键设计。例如，通过改变训练序列长度和运动感知层归一化的设计，作者发现StreamPETR对于长期依赖建模的能力更强，而动态属性对于物体查询之间的交互也有积极的影响。

综上所述，StreamPETR在大规模数据集上的实验结果表明其具有较高的性能和较快的推理速度，同时也具有一定的可扩展性和适应性。

全文翻译

摘要

本文提出了一种多视图三维物体检测的长序列建模框架，称为StreamPETR。该框架建立在PETR系列稀疏查询设计的基础上，并系统地开发了一个以对象为中心的时间机制。模型在线执行，并通过对象查询逐帧传播长期历史信息。此外，我们引入了运动感知层规范化来建模物体的移动。与单帧基线相比，仅需微小计算成本，StreamPETR就实现了显著性能提升。在标准nuScenes基准上，它首次实现与基于激光雷达的方法相当的性能（67.6％ NDS & 65.3％AMOTA）。轻量级版本实现了45.0％mAP和31.7FPS，比最先进的方法(SOLOFusion)高出2.3％mAP并快1.8倍。代码可在https://github.com/exiawsh/StreamPETR.git中获得。