StreamPETR:Exploring Object-Centric Temporal Modeling for Efficient Multi-View 3D Object Detection

参考代码:StreamPETR

1. 概述

介绍:在BEV感知中时序信息融合会为下游感知任务带来不小性能提升,但是在单帧基础上引入时序信息必然会带来额外开销,因而迫切需要一种高性能且代价小的融合方案。现有的一些时序融合策略多是在BEV特征空间维度上完成的,并且对于一些DETR-based方案本身就没有显式构建BEV特征,如PETR,则BEV特征空间上的时序融合方法就不适用了。对此,这里基于PETR中DETR-based方案提出了一种使用query实现多桢object-centric的时序融合策略,也就是不在BEV特征或者图像特征维度实现时序融合,只是在query针对目标去做融合。由于感知的目标是可能存在运动的,则需要建立起帧间运动关系,这里可以使用目标的运动信息(间隔时间、速度、相机内外参数等)构建目标的运动感知模块(MLN,motion-aware layer normalization),这样就可以为场景中的运动目标进行处理。

之前工作中对于BEV特征融合的策略可以为下图中的左边两幅图:
在这里插入图片描述
直接特征图上的时序关联:
这种类型的时序建模是直接操作于BEV空间上,如对不同时刻BEV特征在经过帧间pose对齐之后,通过一个网络直接融合,典型方法如BEVFusion:
F ˉ b e v t = φ ( F b e v t − 1 , F b e v t ) \bar{F}_{bev}^t=\varphi(F_{bev}^{t-1},F_{bev}^t) Fˉbevt=φ(Fbevt1,Fbevt)
只用前面一帧的信息太少了,可以多利用之前帧的信息,典型方法是SOLOFusion:
F ˉ b e v t = φ ( F b e v t − k , … , F b e v t − 1 , F b e v t ) \bar{F}_{bev}^t=\varphi(F_{bev}^{t-k},\dots,F_{bev}^{t-1},F_{bev}^t) Fˉbevt=φ(F

### 数据增强技术在多模态3D目标检测中的应用 对于多模态3D目标检测,在计算机视觉领域内,数据增强方法旨在通过变换输入数据来增加模型训练的有效样本数量并提升泛化能力。具体到多模态场景下,这些方法不仅涉及图像层面的操作,还包括点云和其他传感器信号的处理。 #### 图像域的数据增强 传统的二维图像上的几何变换同样适用于基于摄像头获取的RGB图片或热成像图等: - **随机裁剪与缩放**:通过对原始图像执行不同尺度下的裁切操作,可以模拟远近变化的效果[^1]。 - **颜色抖动**:调整亮度、对比度、饱和度等因素有助于提高算法应对复杂光照条件的能力。 ```python import torchvision.transforms as transforms transform = transforms.Compose([ transforms.RandomResizedCrop(size=(224, 224), scale=(0.8, 1.2)), transforms.ColorJitter(brightness=0.2, contrast=0.2, saturation=0.2), ]) ``` #### 点云域的数据增强 针对LiDAR或其他雷达设备产生的三维空间坐标集合——即点云数据,则有专门设计的技术手段用于扩充其多样性: - **旋转和平移扰动**:沿任意轴向施加微小角度偏转或是位移量级内的变动能够有效防止过拟合现象的发生。 - **噪声注入**:引入高斯分布形式的小幅波动至各维度数值上,以此检验网络结构鲁棒性的强弱程度。 ```python import numpy as np def apply_noise(points, sigma=0.01): noise = np.random.normal(scale=sigma, size=points.shape) noisy_points = points + noise return noisy_points ``` #### 跨模态联合增强策略 考虑到多种感知源之间可能存在关联性特征共享的情况,跨模态同步实施相同类型的转换动作显得尤为重要。比如当对相机视角做水平翻转变换时,也应相应地改变激光雷达所记录下来的物体朝向信息;同理,在调节色彩参数的同时保持其他物理属性不变等等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值