StreamPETR复现详解

最新推荐文章于 2025-05-19 20:11:59 发布

原创

最新推荐文章于 2025-05-19 20:11:59 发布 · 1.2k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#python #人工智能

✨✨ 欢迎大家来访Srlua的博文（づ￣3￣）づ╭❤～✨✨

🌟🌟 欢迎各位亲爱的读者，感谢你们抽出宝贵的时间来阅读我的文章。

我是Srlua小谢，在这里我会分享我的知识和经验。🎥

希望在这里，我们能一起探索IT世界的奥妙，提升我们的技能。🔮

记得先点赞👍后阅读哦~ 👏👏

📘📚 所属专栏：传知代码论文复现

欢迎访问我的主页：Srlua小谢获取更多信息和资源。✨✨🌙🌙

本文所有资源均可在该地址处获取。

论文内容详读

该论文提出了一种名为StreamPETR的长序列建模框架，用于多视角三维物体检测。该模型基于PETR系列中的稀疏查询设计，并系统地开发了一个对象中心的时序机制。该模型在线执行，并通过对象查询帧传递长期历史信息。此外，引入了运动感知层归一化以建模物体的移动。StreamPETR仅需微小的计算成本即可实现显著的性能提升，与单帧基线相比，取得了更好的效果。在标准nuScenes基准上，它是第一个在线多视角方法，实现了与激光雷达方法相当的表现（67.6％NDS和65.3％AMOTA）。轻量级版本实现了45.0％mAP和31.7FPS，优于最先进的方法（SOLOFusion）2.3％mAP和1.8倍更快的FPS。代码已在https://github.com/exiawsh/StreamPETR.git中提供。

论文方法

方法描述

该论文提出了一种基于对象查询的时空交互网络（StreamPETR），用于多视图三维目标检测任务。该方法利用存储在内存队列中的历史信息来预测当前帧的目标状态，并通过全局注意力机制将这些信息传播到后续帧中。具体来说，该方法使用了图像编码器、记忆队列和传播变换器三个组件，其中记忆队列用于存储历史信息，传播变换器则负责处理空间和时间上的交互。