【论文笔记】Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and

Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking
原文链接:https://arxiv.org/pdf/2407.03240v1

简介:本文提出统一的、物体感知的时序学习框架,进行多视图3D检测和跟踪任务。由于目前的时序融合策略可能会被历史帧中的干扰物和背景噪声影响,本文提出循环学习机制,提高表达学习的鲁棒性。反向修正后,历史帧中目标无关区域的响应会被抑制,从而提高时间融合的物体感知能力。此外,基于循环学习模型,本文还为跟踪任务设置了物体感知的关联策略

0. 引言

在这里插入图片描述
传统方法多采用“顺序”方式实现(即“多视图图像→图像/BEV特征→时间融合→预测”,图中黑色箭头),其中图像或BEV特征会同时用于当前帧的前向推断和下一帧的时序融合。但过去帧中的干扰物和背景噪声会对未来帧的检测带来影响。因此,本文使用帧的后验预测去修正其图像/BEV表达(“反向修正”,图中红色箭头),使得修正后的特征中干扰物的响应被抑制。

1. Cyclic Refiner

Cyclic Refiner的关键在于“反向修正”机制,其与前向推断一起,创建了图像/BEV特征和模型预测的循环。
在这里插入图片描述
首先从预测物体 O i O_i Oi收集信息(表达和预测值)。记图像特征为 F i m g ∈ R H × W × C F_{img}\in\mathbb R^{H\times W\times C} FimgRH×W×C,BEV特征为 F b e v ∈ R H ′ × W ′ × C F_{bev}\in\mathbb R^{H'\times W'\times C} FbevRH×W×C,头部特征(对于DETR方法为稀疏查询 R N × C \mathbb R^{N\times C} RN×C,对于其余方法则是密集2D特征)为 F h e a d F_{head} Fhead,则根据预测物体的中心和大小,从 { F i m g , F b e v , F h e a d } \{F_{img},F_{bev},F_{head}\} { Fimg,Fbev,Fhead}中,通过RoI池化,提取相应的特征嵌入 { e i m g , e b e v , e h e a d ∈ R 1 × C } \{e_{img},e_{bev},e_{head}\in\mathbb R^{1\times C}\} { eimg,ebev,eheadR1×C}。随后,拼接这些特征嵌入作为表达 e c a t ∈ R 1 × 3 C e_{cat}\in\mathbb R^{1\times 3C} ecat

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

byzy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值