【论文笔记】Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_45657478/article/details/141499951

Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking
原文链接：https://arxiv.org/pdf/2407.03240v1

简介：本文提出统一的、物体感知的时序学习框架，进行多视图3D检测和跟踪任务。由于目前的时序融合策略可能会被历史帧中的干扰物和背景噪声影响，本文提出循环学习机制，提高表达学习的鲁棒性。反向修正后，历史帧中目标无关区域的响应会被抑制，从而提高时间融合的物体感知能力。此外，基于循环学习模型，本文还为跟踪任务设置了物体感知的关联策略。

0. 引言

在这里插入图片描述
传统方法多采用“顺序”方式实现（即“多视图图像→图像/BEV特征→时间融合→预测”，图中黑色箭头），其中图像或BEV特征会同时用于当前帧的前向推断和下一帧的时序融合。但过去帧中的干扰物和背景噪声会对未来帧的检测带来影响。因此，本文使用帧的后验预测去修正其图像/BEV表达（“反向修正”，图中红色箭头），使得修正后的特征中干扰物的响应被抑制。

1. Cyclic Refiner

Cyclic Refiner的关键在于“反向修正”机制，其与前向推断一起，创建了图像/BEV特征和模型预测的循环。
在这里插入图片描述
首先从预测物体 $O_i$ 收集信息（表达和预测值）。记图像特征为 $F_{img}\in\mathbb R^{H\times W\times C}$ ，BEV特征为 $F_{bev}\in\mathbb R^{H'\times W'\times C}$ ，头部特征（对于DETR方法为稀疏查询 $\mathbb R^{N\times C}$ ，对于其余方法则是密集2D特征）为 $F_{head}$ ，则根据预测物体的中心和大小，从 ${F_{img},F_{bev},F_{head}\}$ 中，通过RoI池化，提取相应的特征嵌入 $\{e_{img},e_{bev},e_{head}\in\mathbb R^{1\times C}\}$ 。随后，拼接这些特征嵌入作为表达 $e_{cat}\in\mathbb R^{1\times 3C}$