《Monocular 3D Object Detection for Autonomous Driving》是在CVPR2016上发表的文章。
文章概览
首先用两段话总结一下这篇文章。
- 该方法将单目中的3D物体检测问题看作两步完成:
- 首先该方法提出了一个生成一组类相关的物体推荐候选框的方法。
- 然后利用一个CNN网络利用这组候选框提取出高质量的3D物体检测框。
- 在物体推荐框提取的方法中,作者利用物体与地平面接触的约束条件,提出了一种能量值最小的方法提取3D候选物体框。然后作者利用若干手工特征对该物体框进行描述,并用SSVM对其物体框进行初步的打分。最后对较高评分的物体框用CNN进行更精确的回归。
接下来,我们先按照代码的顺序进行工作的阐述(非文章顺序)。

3D物体候选框提取
利用先验信息提出假设
首先作者将三维空间离散化为立体像素边长为0.2m的三维模型,并提出了两个假设
- 由于KITTI数据集的单目图像拍摄时相机在汽车上固定位置,因此地平面相对于相机的映射关系是固定的,同时作者假设所有图像的相机Y轴(也就是三维空间中的垂直方向)与地面是垂直的,这是在3D物体框提取的时候的一个假设。
- 另外还有一个假设是,所有的物体底部都与地平面相接。另外还有一个假设是,所有的物体底部都与地平面相接。
3D物体框的采样策略
基于以上的这两个假设,作者基于以下的采样策略来对物体候选框(candidates)进行密集的采集。
- 限定3D采样框的高度。设相机距离地面的高度 h c a m = 1.65 m h_{cam} = 1.65m hcam=1.65m,同时设其他物体的高度为 h c a m = 1.65 m + δ h_{cam} = 1.65m+\delta h