一、感知决策一体化模型架构
单一神经网络整合全流程
端到端神经网络能够直接将传感器输入映射为控制输出,消除了传统模块化架构中感知、规划、控制等独立模块之间的割裂。传统架构中,感知模块负责识别环境信息,决策模块根据感知结果进行路径规划和决策制定,控制模块再根据决策执行车辆的操作,各模块之间存在信息传递损耗和延迟。而端到端架构通过一个单一的神经网络模型,将整个流程整合在一起,使传感器采集到的数据能够直接用于生成车辆的控制指令,大大提高了系统的响应速度和整体性能。
例如,特斯拉 FSD v12 采用纯视觉感知模型,通过多个摄像头采集车辆周围的视觉信息,这些信息直接输入到一个深度神经网络中,经过网络的处理和计算,最终输出车辆的转向角度以及加速或制动指令,实现从输入到输出的端到端闭环,让车辆能够根据实时视觉信息做出精准的驾驶决策。
模型架构创新
-
BEV+Transformer:将多摄像头数据转换至鸟瞰视角(BEV),结合注意力机制动态捕捉道路拓扑关系。鸟瞰视角能够提供更全面的周围环境信息,类似于从空中俯瞰道路和车辆周围的情况,有助于更好地理解复杂的道路布局和交通参与者之间的关系。注意力机制则可以根据不同的驾驶场景和任务,动态地关注道路上的关键区域和重要信息,从而提升车辆在复杂路口等场景下的通行能力。
以华为 ADS 3.0 为例,在城市复杂路口场景下,通过 BEV+Transformer 架构,系统能够准确地捕捉到各个方向来车、行人、非机动车等交通参与者的运动状态和位置关系,实现了路口通行成功率提升至 98%。这意味着车辆在通过复杂路口时,能够更精准地做出避让、转弯或直行等决策,减少因决策失误导致的通行延迟或安全隐患。 -
占用栅格网络(Occupancy):通过 3D 体素建模识别异形障碍物。传统的目标检测方法通常使用边界框来标识和定位障碍物,但对于一些形状不规则或较小的异形障碍物(如掉落的轮胎、油桶、塑料袋等),边界框检测

最低0.47元/天 解锁文章
1155

被折叠的 条评论
为什么被折叠?



