Objects are Different: Flexible Monocular 3D Object Detection
目录
【Paper】【Code】
简介
CVPR2021 一篇Image-based方法,解决3D目标检测的工作,具体的数据集是KITTI,主要框架采用anchor-free类型中centernet框架。
问题:
- 现有方法依赖额外信息、如生成伪雷达,需要额外标注
- 现有方法大多忽略了对象之间的差异,或只考虑的一般的尺度的方差,这会影响分布外的对象的预测,造成性能下降。
- 现有方法无法解决截断对象检测;检测阶段对象会加重网络学习负担,影响预测完整对象。
模型:

贡献:
- 关注到单目三维目标检测中考虑目标间差异的重要性,提出了截断目标预测的解耦方法。
- 提出了一种新的目标深度估计公式,它利用不确定性灵活地组合独立的估计器估计对象深度而不是对所有对象采用单一方法。
方式:
-
将预测的3D中心与图像的关系分为“inside”和“outside”,然后将内部对象精确地表示为投影中心,外部对象精确地表示为边缘点,这样两组对象分别由特征映射的内部区域和边缘区域处理。针对卷积难以处理空间变化预测的问题,进一步提出了边缘融合模块,将外部目标的特征学习和预测解耦。
-
简单地从不同关键点计算平均可能对截断和遮挡对象的关键点比较敏感。本文将关键点分为M组,每组恰好可以足以求解深度。为了将基于M关键点的估计和直接回归相结合,我们对它们的不确定性进行建模,并将最终估计表示为不确定性加权平均。所提出的组合允许模型灵活地选择更适合的估计器进行稳健和准确的预测。
不足:
- 没有针对遮挡物体进行处理
- 没有针对地优化如Dimension等检测头
1. 摘要
现有的方法从单一图像不依赖深度信息预测3D框目标物体是一个很有挑战的问题。大多数现有方法对所有对象都采用同样的检测方法,而不管他们的不同分布,导致限制了截断对象检测的性能。本文提出了一个灵活的单目三维目标检测框架,该框架对目标进行显示解耦,并自适应地结合多种目标深度估计方法。具体地说,是将特征映射的边缘解耦以预测长尾截断对象,从而不影响政策对象的优化。此外,将目标深度估计公式化为直接回归目标深度和从不同关键点组求解深度的不确定性引导集合。实验表明,在KITTI下,方法在保持实时性的同时,在moderate和hard下比现有方法提升了27%和30%。
2. 具体实现
2.1 定义问题3D Location
相机坐标系(x,y,z)与像素坐标系关系如图:

不同坐标系下转换关系:
x = ( u c − c u ) z f x=\frac{(u_c-c_u)z}{f} x=f(uc−cu)z y = ( v c − c v ) z f y=\frac{(v_c-c_v)z}{f} y=f(vc−cv)z
2.2 网络框架以CenterNet作为框架基础
2.3 如何处理正常对象和截断对象
现有的方法对每个对象使用统一的表示法 x r x_r xr,即2D边界框 x b x_b xb的中心。3D框投影的三维中心 x c x_c xc,offset偏移 δ c = x c − x b \delta_c = x_c - x_b δc=xc−xb。根据投影中心在图像内还是外将物体分为两组,将两组物体相应的偏移可视化如图。考虑到两组偏移量相差大,联合学习的 δ c \delta_c δc会产生长尾偏移,因此我们建议将内外对象的表示和偏移学习解耦。

- 对于Inside目标
定义方式和之前的做法类似, δ c = x c − x b \delta_c = x_c - x_b δc=

本文提出了一种新的单目3D目标检测方法,关注对象间的差异,特别是处理截断物体。通过解耦内部和外部对象的表示并采用边缘融合模块,改善了深度估计,提高了在KITTI数据集上的检测性能,尤其是在困难类别上的表现。
最低0.47元/天 解锁文章
2667

被折叠的 条评论
为什么被折叠?



