- 博客(5)
- 收藏
- 关注
原创 BEVDet4D笔记
BEVFormer引入了历史BEV,BEVDet4D引入了时序信息,因为历史帧的信息可以对当前帧起到比较好的辅助作用,比如车辆朝向、运行速度,因为在当前帧中同一辆车很大可能是按照前一帧的方向运行。t-1时刻的BEV特征和t时刻的BEV特征是没办法直接相加的,空间上没有对齐,这里的BEV空间是以车辆为坐标原点,所以要融合多时刻的BEV特征,核心就是做空间层面的对齐。为什么时序信息对3D检测非常重要?
2023-08-04 00:53:12
364
1
原创 BEVDet笔记
BEV空间中不同类别的空间分布与图像视图的空间分布是完全不同的,图像视图相机的透视成像机制导致不同类别共享相似的空间分布,因此经典的NMS是对不同的类别采用相同的阈值,比如在2D目标检测中,两个实例的bounding box IoU是低于0.5的(这句话存疑),在BEV空间中,所有实例间的重叠接近于0,预测结果中IoU分布也因类别而异,在BEV空间中有些目标例如行人占比很小,冗余的框可能和GT间并没有交集,那就是IoU等于0,这就导致正样本和负样本空间关系如果依赖IoU的NMS其实是失效的。
2023-07-25 16:20:35
620
原创 BEVFormer笔记
里面使用的注意力机制是SE模块,SE的注意力机制的作用在通道上的,图中看到的不同颜色的权重其实是表示不同注意力的权重,通过对通道数值的重新加权,网络会自适应的关注或忽略某些部分的特征,假定颜色比较深的区域是权重比较大的地方,通过加权后,权重比较大的地方的特征会自适应的得到加强。对于高度,这里一个点对应4个query(图中红色点),这4个点分别去遍历所有视角的特征,最后再做一个整合(可能这一步是没必要的,只需要1个query就好),类似于多头注意力机制,非要说在不同高度做的聚合也可以。1、是一个重构空间。
2023-07-21 17:40:26
2070
3
原创 DETR3D笔记
2、对于尺寸的建模不是特别好,比如在gt中有个车是很长的,在预测结果中车相对而言是很短的,产生这样尺寸差异的原因是什么呢?DETR3D是可以利用重复特征去预测的,3D reference point对多视角分别投影,比如一个reference point投影回视角1的时候投影到重叠区域了,拿一次特征,投影回视角2的时候又投影到这个重叠区域了,又拿一次特征,是可以通过多视角特征进行融合的,所以对于重叠区域,DETR3D的检测融合的是多视角的特征,相比单一视角的检测而言,性能自然是有明显提升的。
2023-07-20 16:19:33
2178
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人