自动驾驶中的鸟瞰视角感知技术解析
1. 鸟瞰视角感知概述
鸟瞰视角(BEV)感知是将透视视图转换为鸟瞰视图,并执行诸如 3D 检测、地图分割和运动预测等感知任务。随着自动驾驶车辆传感器设置日益多样化和复杂,对统一表示的需求愈发迫切。BEV 感知凭借其在 3D 空间表示、多模态融合、决策制定和路径规划等方面的固有优势,受到了学术界和工业界的广泛关注。
根据输入数据的不同模态,BEV 感知方法可分为以下几类:
- LiDAR 基方法
- 相机基方法
- 融合基方法
传统的 LiDAR 基方法在 3D 检测和语义分割任务中取得了显著成功,但仅使用透视视图或多视图(以视觉为中心的方法)进行感知仍然是一个重大挑战。
在现代自动驾驶中,决策和运动规划模块依赖于多个感知和预测模块来收集足够的环境信息。感知任务不仅要检测动态对象,还要识别静态元素,如道路边界、人行横道、车道线和路标。预测任务则要求系统推断其他动态对象的运动趋势,为决策和路径规划提供依据,以避免碰撞。
目前,工业界基于纯视觉的感知和预测算法研究通常只关注整个过程中的单个子问题,如 3D 对象检测、地图分割、对象跟踪或运动预测,然后通过预融合或后融合方法将不同网络的感知结果进行融合。然而,这种串行架构存在以下显著缺点:
1. 误差传递 :上游模块的误差会持续向下游传递,当独立研究子问题时,会严重影响下游任务的性能。
2. 冗余计算 :卷积神经网络(CNNs)中的重复操作,如特征提取和维度转换,会导致冗余计算,不利于提高系统的整体效率。
3.
超级会员免费看
订阅专栏 解锁全文
1337

被折叠的 条评论
为什么被折叠?



