端到端新方向，以高斯为中心的自动驾驶框架——GaussianAD_gaussianad: gaussian-centric end-to-end autonomous-优快云博客

本文链接：https://blog.youkuaiyun.com/soaring_casia/article/details/144966617

摘要：基于视觉的自动驾驶因其令人满意的性能和低成本显示出巨大潜力。大多数现有方法采用密集表示（例如，鸟瞰图）或稀疏表示（例如，实例框）进行决策，这些方法在全面性和效率之间存在权衡。本文探索了一个以高斯为中心的端到端自动驾驶（GaussianAD）框架，并利用3D语义高斯广泛但稀疏地描述场景。本文用均匀的3D高斯初始化场景，并使用周围视图图像逐步细化它们以获得3D高斯场景表示。然后使用稀疏卷积高效地执行3D感知（例如，3D检测，语义地图构建）。本文为具有动态语义的高斯预测3D流，并据此规划自我轨迹，目标是未来场景预测。GaussianAD可以以端到端的方式进行训练，当可用时可以选择性地使用感知标签。在广泛使用的nuScenes数据集上进行的广泛实验验证了GaussianAD在各种任务上的有效性，包括运动规划、3D占用预测和4D占用预测。

©️【深蓝AI】编译

论文标题：GaussianAD: Gaussian-Centric End-to-End Autonomous Driving

论文作者：Wenzhao Zheng,Junjie Wu, Yao Zheng, Sicheng Zuo, Zixun Xie,Longchao Yang, Yong Pan, Zhihui Hao, Peng Jia, Xianpeng Lang, Shanghang Zhang

论文链接：https://arxiv.org/pdf/2412.1482

介绍

基于视觉的自动驾驶因其类似人类驾驶和经济传感器配置而成为有前景的方向。尽管缺少深度信息，但深度网络能从RGB相机推断结构信息，并在3D目标检测、高清地图构建和3D占用预测等任务中表现强劲。研究正从模块化转向端到端范式，直接从图像输入规划未来轨迹，减少信息损失，设计2D图像的3D场景表示变得重要。

传统方法通过压缩3D场景高度维度获得鸟瞰图表示，而新方法探索稀疏查询描述周围场景，但无法捕捉3D环境的细粒度结构。有些方法使用三视角或体素表示场景，但密集建模导致计算开销大。GaussianAD框架使用3D语义高斯作为场景表示，虽稀疏但能细粒度建模，有助于下游任务。本文探索了从3D高斯表示进行感知、预测和规划的方法。3D高斯流模型预测每个高斯的未来位移，整合信息规划自我轨迹。3D高斯表示的明确性直接计算预测的未来场景，与真实场景比较作为监督。GaussianAD是首个探索明确稀疏点基架构的端到端自动驾驶框架，在nuScenes数据集上验证了其有效性，实现了高效率的端到端运动规划。

▲图1｜自动驾驶不同流程的比较©️【深蓝AI】编译

本文方法

3D 场景表示对驾驶很重要

自动驾驶的目标是根据一系列场景观察 $\{o\}$ 生成安全且一致的控制信号（例如，油门、刹车、转向）。虽然场景观察 $\{o\}$ 可以通过多种传感器获得，如摄像头和激光雷达，但本文主要关注基于视觉的自动驾驶，特别是来自周围摄像头的数据，因为其具有高的信息密度和较低的传感器成本。这种基于视觉的方法利用环绕车辆的摄像头来捕捉环境信息，为自动驾驶系统提供必要的输入以做出正确的驾驶决策。假设有一个表现良好的控制器，大多数自动驾驶模型主要关注从当前和历史观测值 $\{o\}$ 学习映射 $f$ 到未来的自我轨迹 $\{w\}$ :