点击下方卡片,关注“自动驾驶之心”公众号
戳我-> 领取自动驾驶近15个方向学习路线
今天自动驾驶之心为大家分享上海期智研究院等团队的最新工作—STR2!运动规划新方案,直接SOTA!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
论文作者 | Qiao Sun等
编辑 | 自动驾驶之心
论文链接:https://arxiv.org/pdf/2410.15774
项目网页:https://tsinghua-mars-lab.github.io/StateTransformer/
代码开源:https://github.com/Tsinghua-MARS-Lab/StateTransformer
主要内容:
大型实际驾驶数据集推动了有关自动驾驶数据驱动运动规划器的各个方面的研究,包括数据增强、模型架构、奖励设计、训练策略和规划器架构。在处理复杂和少样本情况下,这些方法有较好的表现。但是由于设计过于复杂或训练范式的问题,这些方法在规划性能上的泛化能力有限。在本文中,我们回顾并比较了以前的方法,重点关注泛化能力。实验结果显示,随着模型的适当扩展,许多设计元素变得冗余。我们介绍了StateTransformer-2 (STR2),这是一种可扩展的、仅使用解码器的运动规划器,它结合了Vision Transformer (ViT) 编码器和混合专家(MoE) 的Transformer架构。MoE骨干通过训练期间的专家路由解决了模态崩溃和奖励平衡问题。在NuPlan数据集上的大量实验表明,我们的方法在不同测试集和闭环模拟中比以前的方法具有更好的泛化能力。此外,我们评估了其在真实城市驾驶场景中的可扩展性,显示出随着数据和模型规模的增长其一致的准确性提升。

下面我们详细解释STR2的模型设计。我们选择的不是向量化的输入,而是栅格化图片的输入,可以方便进行规模化训练。输入还加入了聚类的轨迹作为引导线,结果可以看到在大曲率的场景表现会更合理一些。输入经过一个使用MoE架构增强的Transformer模型,自回归的方式输出引导线类别,关键点以及轨迹。
ViT编码器。我们采用仅解码的ViT图像编码器,以实现更好的可扩展性和性能,它由堆叠的12层Transformer组成。栅格化的图像被切分成16个小块。我们选择GeLU作为ViT编码器的激活函数。
Mixture-of-Expert。语言建模任务要求模型从复杂且通常具有统计争议的专家数据奖励中学习和实现平衡。受MoE模型在语言建模任务上泛化结果的启发,我们将GPT-2骨干网络替换为MoE骨干网络用于序列建模。MoE层通过专用内核和专家并行(EP)提供了更好的内存效率。我们还利用了Flash Attention2 和数据并行(DP)以提高训练效率。
自回归。在生成序列中我们添加了聚类轨迹作为嵌入特征用于模态分类,并使用交叉熵损失。我们使用K-Means聚类,从0.7百万个随机选择的动态可行轨迹中按其时空距离提取了512个候选轨迹。每条归一化的轨迹包括未来8秒的80个轨迹点(x, y和偏航角)。
liauto数据集上的规模化实验。我们采用了liauto数据集进行了scaling law的探索,liauto数据集是一个工业级的超大规模现实世界驾驶数据集。该数据集包括车道级导航地图和来自7个RGB摄像头、1个LiDAR和1个毫米波雷达(MMWR)的传感器设置的跟踪结果。我们选择了过去6个月内收集的城市驾驶场景,其中没有任何人工标注。我们筛选出错误的导航路线,因为这些路线与实际的未来驾驶轨迹不匹配。最终,我们将所有驾驶日志重新整理为长达10秒的训练和测试样本,其中包括过去的2秒和未来的8秒。最终的训练数据集拥有超过1b训练样本。实验结果(如图2)可以看到随着数据规模的增加以及模型参数的增加,test loss都有下降的趋势。均衡考虑训练成本和收益的关系,我们最后采用的为800m的模型。


从图3 nuplan闭环仿真的结果可以看到STR2取得了全面SOTA。结果来看专家轨迹的NR分数较高,R的分数却很低,说明专家轨迹没有一个适应环境变化的能力,仿真环境和实车有一定的区别。结果可以看出PDM-Hybrid相比于其他的方法的R得分明显高于NR,说明生成-评估的范式在模型泛化性能上表现优异。我们借鉴了PDM的生成-评估范式,基于STR2模型的输出结果进行了候选轨迹生成,再经过PDM打分器输出得分最高的轨迹。

图4可视化结果可以看出PDM-Hybrid轨迹因为基于当前车道中心线,没有主动变道和绕障的能力,我们的模型由于泛化性能强,所以很多场景下表现比PDM-Hybrid合理很多。本工作在nuplan testhard 数据集上的实验结果证明了生成-评估范式的合理性。对于生成-评估范式,在后续工作中我们还可以有更多尝试,例如如何在模型层面输出更合理的候选轨迹,如何将未来的不确定性考虑进打分器中,同时可以考虑将本文的方法作为真值标注的一种方式,帮助模型朝着更合理的方向迭代。为了感受模型的泛化性能我们将nuplan数据训练得到的模型直接应用于liauto数据集上推理,结果表现良好,对于动态障碍物的避让交互等都有合理的输出。
『自动驾驶之心知识星球』欢迎加入交流!重磅,自动驾驶之心科研论文辅导来啦,申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向,欢迎联系我们!
① 全网独家视频课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
② 国内首个自动驾驶学习社区
国内外最大最专业,近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

③【自动驾驶之心】技术交流群
自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
④【自动驾驶之心】全平台矩阵