目前市场上自动驾驶感知规控模型可以分为两种:传统顺序方法(感知-行为决策-运动规划-反馈控制)、基于深度学习的端到端模型。
第一种传统顺序方法
1 感知:目标检测和车道检测
3D目标检测是自动驾驶、机器人视觉和增强现实等领域中的一个重要研究方向,主要分为三类:基于单目图像的检测、基于点云的检测和基于多传感器融合的检测。不同方法各有优缺点,基于单目图像的方法成本低、部署简单、但精度有限缺乏深度信息,基于点云的方法精度高但计算复杂度大,多传感器融合方法能够在精度和鲁棒性上取得较好平衡。
1)基于单目图像的检测
基于单目图像的3D目标检测利用单个摄像头捕获的二维图像信息,通过引入第三维度来估计物体的3D位置和尺寸。这种方法的核心在于估算3D边界框,通常需要结合深度估计技术。
主流算法:
- Mono3D:通过生成候选区域并利用卷积神经网络进行特征提取和边界框回归来进行3D检测。
- Deep3DBox,通过2D边界框估计物体的姿态,并利用深度学习网络进行3D边界框的回归。
- MonoGRNet:结合几何推理网络,在2D检测的基础上进行3D边界框估计。
2)基于点云的检测
基于点云的检测利用激光雷达或深度摄像头获取的3D点云数据进行物体检测。此方法进一步分为投影方法、体积卷积方法和点网方法。
2.1)投影方法
点云投影方法通过将3D点投影到2D平面上,然后利用2D检测算法进行3D边界框的回归。
- PointPillars:将点云数据分割成柱状结构,并利用2D卷积神经网络进行处理。