【论文阅读】【三维目标检测】在Range view上做3D目标检测

本文探讨了在Range View而非BEV下进行3D目标检测的挑战与解决方案,通过RangeDet、To the Point和RangeRCNN三篇论文介绍了Range Conditioned Pyramid In、Meta-Kernel Convolution等技术,旨在优化Range View的特征提取和物体检测效果。研究表明,直接在Range View上使用Conv2D可能不足以满足3D Object Detection需求,需要在kernel级别结合xyz维度进行特征提取。

range view是仅针对物理旋转式扫描的激光雷达的特殊view,例如velodyne64线,128线都是。具体,旋转式扫描的激光雷达都是在水平方向进行旋转,竖直方向为固定个数的激光传感器,传感器的个数是和激光雷达线数是一样的。这样的扫描方式,使得该类型的激光雷达扫描出来的坐标系实际是一个柱坐标系,在水平和竖直方向都是有固定角分辨率的。用水平和竖直方向的角度信息,可以准确的检索到点云中的每一个点。所以整个点云可以用水平和竖直方向的角度来稠密表示,从而形成range view的表示方法。

range view在3D语义分割上用的比较成熟,例如RangeNet,但在3D目标检测上面,和主流的在BEV下左检测的网络,效果差距比较大。今年,新出来几篇在使用range view上做检测的文章。

先说结论:直接在range view上使用Conv2D提取特征有限,无法满足3D Object Detection。

BEV or Range View

BEV Range View
是否需要栅格化 需要 不需要

BEV:

  • 优点:物体尺寸变化不大,物体之间没有遮挡,相对位置关系为3维空间
  • 缺点:需要进行栅格化,信息稀疏

Range view:

  • 优点:不需要栅格化,信息稠密
  • 缺点:物体近大远小,物体之间遮挡

RangeDet: In Defense of Range View for LiDAR-based 3D Object Detection

出自图森

文中认为,range view效果不行的因素有三个:

  • range view中物体尺寸变化大
  • range view中的卷积是在2D pixel coord,而物体检测要在3D space,这两者之间有差距
  • range view中提取的特征更紧密,但如何有效利用这种特征,其他range view的方法并没有考虑

针对上述三个因素,本文提出了相对应的3个改进

Range Conditioned Pyramid In

近大远小的问题,更通用的一种问题就是物体scale大小不同,在主流的2D目标检测网络上,使用的FPN的结构,对scale大小不同的物体做分治策略的检测。那这种分治的策略,将不同物体放置在不同层级的特征图上的方法是根据IoU的。本文提出,按照range来放置,将0-80m的距离分为[0, 15), [15, 30), [30, 80]三个区间,每个区间中的物体用一个特征图来检测。

Meta-Kernel Convolution

作者认为,传统的2D conv中的卷积核的权重是在整feature map上共享的,这样不好。我认为这种理解就是,近处3x3的卷积核覆盖的范围和远处3x3的卷积核覆盖的范围完全不同,使用同样的权重,不太妥当。所以本文提出,将卷积核的权重变得可变起来。

在这里插入图片描述
具体而言,对于特征图中的一个点 p i p_i pi,要提取他的特征,分为以下几步:

  • 根据特征图位置,找到其邻域,其实就是3x3的邻域,并找到其中的点 p j p_j p
评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值