端到端SOTA!ARTEMIS:结合混合专家(MoE)和自回归轨迹规划的自动驾驶框架

摘要

武汉理工大学、香港大学、东南大学、同济大学等高校联合推出ARTEMIS,一种端到端的自动驾驶框架,通过结合自回归轨迹规划方法与混合专家(MoE)模型,在大规模真实环境的NAVSIM数据集上取得显著成绩。

©️【深蓝AI】编译

本文由paper一作——冯仁炬授权【深蓝AI】发布!

论文题目:ARTEMIS: Autoregressive End-to-End Trajectory  Planning with Mixture of Experts for Autonomous  Driving

论文作者:Renju Feng, Ning Xi, Duanfeng Chu, Rukang Wang, Zejian Deng, Anzheng Wang, Liping Lu, Jinxiang Wang, Yanjun Huang

论文地址:http://arxiv.org/abs/2504.19580

项目地址:https://github. com/Lg0914/ARTEMIS

1,研究背景

端到端模型通过直接将原始感知数据映射到轨迹规划或控制信号,有效地克服了传统模块化方法块间累积误差和复杂依赖关系问题。然而,端到端模型通常采用静态、one-shot的推理范式,难以充分捕捉环境的动态演变(图1(a)),在复杂场景中表现有限。

相比之下,自回归方法通过逐步生成轨迹路径点,既能保持时间连续性,又可以基于已规划的片段进行自适应决策。自回归模型在除了在轨迹预测领域已得到广泛应用,还在融合世界模型构建与轨迹规划的统一框架,利用自回归方法实现部分或全部的规划任务。

图1 | 四种不同端到端架构

然而,现有的单网络端到端模型在处理多样化驾驶场景时依然难以充分捕获和适应环境复杂性的挑战。为应对轨迹规划中的固有复杂性,逐渐采用如混合专家(MoE)等复杂架构。MoE通过多个专业化的专家网络结合智能路由机制,动态分配和处理输入。

在自动驾驶中,端到端模型生成的轨迹天生具有多模态潜能,反映驾驶行为的根本不确定性:

1. 在相同环境条件下,驾驶员可能采取多种合理的未来行动(见图1(b)),而传统的单网络架构难以准确刻画这种行为多样性。

2. 将MoE引入规划任务,在NuPlan数据集上展现出优异性能。基于扩散模型的生成范式(见图1(c)),引入了生成性建模方法以增强调度轨迹的多样性。

3. 虽然这些方法在端到端自动驾驶中达到了最新性能,但它们通常采用静态范式,即同时生成所有轨迹点(或经过多轮去噪迭代),限制了对轨迹动态演变特性的捕获能力。相比之下,采用MoE的自回归方法具备更优的时间序列捕获能力、环境适应性和实用价值,无需强先验约束即可操作。

为此,本文提出ARTEMIS(如图2),旨在结合自回归序列规划与混合专家机制实现自动驾驶。主要贡献如下:

● 首次将Mixture-of-Experts(MoE)引入端到端自动驾驶,成功缓解了传统方法在指导信息模糊条件下的轨迹质量下降,以及单网络架构在多样驾驶场景中表现有限的问题,借助动态路由机制与专家划分实现有效应对。

● 并提出了一种自回归端到端规划策略,逐步构建轨迹,通过迭代决策模型充分体现路径点间的强时间依赖关系。

● 实验结果在大规模真实环境的NAVSIM数据集上取得显著成绩。

图 2 | ARTEMIS框架流程

2,方法精析

2.1,前置条件

端到端自动驾驶: 端到端自动驾驶是一个条件序列生成问题,其输入为一序列的历史感知数据$S = (s_1, s_2, \dots, s_T)$,其中T表示历史时域长度。模型需要为未来时间点生成一个轨迹序列$Y = (y_1, y_2, ..., y_H)$,其中$H$表示预测范围。每个点$y_h \in \mathcal{R}^d$$d$代表每个路径点的维度。端到端模型的目标是学习条件概率分布$p(Y|S)$

对于自回归模型,可以将条件概率分布分解如下:

其中$ y_{<t}$表示在时间$t$之前生成的路径点。

在传统的端到端模型中,感知数据$S$首先通过特征提取网络$ \phi(S) $转换为潜在表示$z$,然后通过轨迹生成网络$ \psi()$映射到最终轨迹$Y$

混合专家:采用类似于DeepseekMoE的设计,其中部分专家被指定为共享专家,以捕获可泛化的知识并减少路由专家的冗余。给定输入$x$,本文的MoE输出可以形式化为:
$y = \sum_{i \in E_{shared}} f_i(x) + \sum_{i \in E_{private}} g_i(x) \cdot f_i(x) \quad $

其中,$E_{\text{shared}} $表示共享专家,$E_{\text{private}} $代表域特定专家,$E$表示专家网络总数。第i个专家的计算函数为$f_i : \mathbb{R}^{n \times d_{\text {model }}}$,门控神经网络通过函数$g_{i}: \mathbb{R}^{n \times d_{\text {model }}} \rightarrow [0,1]$为第i 个专家分配权重。

2.2,模型架构

感知模块: 感知模块遵循Transfuser的设计,负责从原始感知数据中提取特征。该模块采用多模态融合策略,同时处理图像和点云数据,构建统一的环境表示。具体来说,包含两个并行的特征提取器,在不同阶段通过Transformer进行特征融合。

该模块使用点云数据$ D_l \in \mathbb{R}^{256 \times 256}$和前视图图像数据$D_I \in \mathbb{R}^{1024 \times 256 \times 3} $,通过一系列卷积层和ResNet-34骨干提取视觉特征(如$F_{cam}$$F_{lidar}$)。最终采用多模态融合机制,将这些特征整合成鸟瞰视角BEV特征表示$F_{bev} \in \mathbb{R}^{B \times C_{bev} \times d_{\text{model}}} $

使用MoE的自回归规划模块: 与传统的一次性方法不同,作者采用自回归策略,逐步构建轨迹,同时融合混合专家(MoE)架构。该设计结合了之前的轨迹信息和根据场景特征动态选择的特定专家网络。

通过对白训练集的分析显示,控制指令的分布严重不平衡(左转指令样本超过20,000个,右转样本少于10,000个,前进指令超过50,000个)。此外,观察到部分训练样本在驱动指令与专家路径间存在偏差(如图3)。仅依据驱动指令选择专家可能导致某些专家训练数据不足,且难以捕获多样化的驾驶策略。本文采用内生性路由的多模态建模法,有效缓解此类问题。
 

图 3 | 控制指令的分布

为了避免模型偏于直接从历史自主轨迹学习规划(可能引发因果混淆等问题),只将当前自主状态$s_0 \in \mathbb{R}^8$(包括控制指令、二维速度和加速度)通过多层感知机(MLP)编码到特征空间$Q_s$

位置与时间嵌入: 明确模型所处的具体时间步对于规划轨迹点至关重要。在未来规划时间步$t$上,使用嵌入层获得规划时间嵌入,记为$T_{Et}$。同理,采用位置嵌入$P_{Et}$来融入位置相关信息。需要注意的是,仅在第一自回归步骤中将位置嵌入加入初始规划序列,避免重复添加带来的噪声积累。

自回归生成: 首先,将位置嵌入加入完整的当前规划序列。该序列随后输入带有填充掩码$M_t $的Transformer编码器,更新规划查询$Q_{1:t} $。填充掩码确保当前时间步的规划查询仅与历史查询交互。通过构建结合时间信息、自身状态、当前及历史规划查询的拼接查询$C_t = \text{Concat}(T_{Et}, Q_s, Q_{1:t}) $,并输入到带有批次重新分配的MoE块中,从BEV特征中获得当前时间步的规划查询。
$Q_{t+1} = MoEBlock(F_{bev}, C_t)$

最后,为驱动行为的固有不确定性,采用概率建模方法。使用多层MLP预测多模态轨迹点的分布,包括位置和航向。 最终,通过从预测分布$y_t \sim \mathcal{N}(\mu_t, \sigma_t^2)$中采样,生成当前时间步的轨迹点$y_t $。轨迹点生成后,更新对应时间点的最新规划查询序列,最后将所有轨迹点拼接形成初始轨迹。

批次重分配 MoE(混合专家)模块。该模块如图4所示,包括共享专家$E_{\text{shared}} $和域特定专家$E_{\text{private}} $。本文采用一种高效的批次重分配策略,显著提升计算效率。为确保路由网络的查询维度固定,从拼接的查询中移除历史规划查询,形成路由查询$Q_r = \text{Concat}(T_{Et}, Q_s, Q_t) $。路由器网络$R$由两个多层感知机(MLP)组成,用于计算专家分配分数。第一个MLP对输入特征进行降维,第二个MLP将压缩后的特征映射到专家分数$g_t^i $。这一两阶段设计在提升计算效率的同时,兼顾了路由决策的质量。

图 4 | Batch Reallocation MoE

为了让模型在训练过程中更专注于最相关的专家,采取稀疏激活策略,只选择得分最高的前k个专家。对于每个被选中的专家索引序列向量$ a_i $,执行一系列操作,包括批次排序、数据重组和块识别。根据专家索引对批次样本进行排序,得到排序函数$\pi_i$。随后,基于该排序函数,将鸟瞰图(BEV)特征和拼接的查询按顺序重新组织,如下所示:
$F_{\text {bev }}^{(i)}=\pi_{i}\left(F_{\text {bev }}\right) \quad \text { and } \quad Q_{t}^{(i)}=\pi_{i}\left(Q_{t}\right) $

基于专家索引的模式,连续具有相同专家索引的块被识别并匹配:
${\{E_j^i, n_j^i\}}_{j=1}^J = UC(\pi_i)$

$J$代表总块数,$E_{i,j}$表示第j个在第i 个专家索引序列中的连续块,$n_{i,j}$则是对应的块大小,由唯一连续函数确定。每个块$E_{i,j}$应用相应的专家网络,其中$F_{bev}^{(i,j)} $$C_t^{(i,j)}$构成在专家索引序列$ a_i $下第j个块的重组专家输入数据。
$F_{bev}^{(i,j)} = F_{bev}^{(i)} [b_j^i:(b_j^i + n_j^i)]$
$C_t^{(i,j)} = C_t^{(i)}[b_j^i:(b_j^i + n_j^i)]$
$O_{i,j} = E_{private}^{j}(F_{bev}^{(i,j)}, C_{t}^{(i,j)}) + E_{shared}(F_{bev}^{(i,j)}, C_{t}^{(i,j)}) + C_{t}^{(i,j)}$


此外,$b_{i,j} $表示第i 个专家索引序列中第j个连续块的起始位置。

最后,专家处理的结果被还原至原始的批次顺序,并根据它们对应的权重$g_{ij}$融合各专家的输出,形成最终的复合输出$ O_f $

$\pi_i (\hat{O}_{i,j}) = O_{i,j} \text{ and } O_f = \sum_i \sum_j (g_{ij} \times \hat{O}_{i,j}) \quad $

轨迹细化模块:该细化过程确保最终轨迹$Y$满足运动学约束,避开障碍物,并保持平滑性。该过程分为两个阶段:语义运动学优化和交互注意力细化。

语义运动学优化:该阶段从鸟瞰图(BEV)语义地图$S_{bev} $提取特征,得到语义特征$ F_{sem} = \phi_{sem}(S_{bev})$,其中$\phi_{sem} $是一个主要由多层卷积网络实现的语义编码器。
用门控循环单元(GRU)网络对初始轨迹进行编码,获得轨迹特征$ h_{traj}$,随后将$F_{sem} $$ h_{traj}$输入到优化器网络$\phi_{optimizer}$,产生联合表征$ F_{combined} $

解码部分通过融合特征逐点优化轨迹点:对于每个路径点,使用一个GRU和输出层$\phi_{output} $来生成优化后的点$y_i' $。在运动学优化阶段,采用多种明确的约束(包括平滑性约束和运动学约束),并为这些约束分配可学习的权重,以优化生成的轨迹点。从语义运动学优化得到的最终点记作。

交互注意力细化: 利用级联交互注意力模块,进一步增强轨迹与场景上下文之间的交互,使轨迹特征能同时与环境中的agent 特征和自主规划(ego planning)特征交互$\hat{y}_i $

$Y = \Psi_{refine}(\hat{y}_{i}, Q_{agent}, Q_{ego})$


其中,$Q_{agent} $表示 agent 查询特征,$Q_{ego} $代表 ego 规划的查询特征,$\Psi_{refine} $则为细化函数。

训练损失:与一些端到端方法一致,采用分阶段训练方法以减轻训练不稳定性。首先训练感知网络及其辅助任务,包括语义映射和目标检测。随后,整个网络进行端到端训练。
此外,还选择不使用MoE架构中常用的专家平衡损失,因为在特征分布不平衡的数据集中应用该损失可能阻碍个别专家获取专门的策略知识。

感知阶段损失:在第一阶段,聚焦于优化与感知相关的辅助任务。总损失为:
$\mathcal{L}_{perception} = \lambda_{sem}\mathcal{L}_{sem} + \lambda_{class}\mathcal{L}_{class} + \lambda_{box}\mathcal{L}_{box}$

其中$L_{sem}$是鸟瞰图(BEV)语义地图的交叉熵损失,$L_{class} $$L_{box} $是使用匈牙利匹配算法计算的目标分类和定位损失。

端到端训练损失:在此阶段,整个网络进行端到端训练。总损失为:

$\mathcal{L}_{planning} = \lambda_{traj} \mathcal{L}_{traj} + \lambda_{NLL} \mathcal{L}_{NLL} + \mathcal{L}_{perception}$

其中$L_{traj} $表示规划的L1损失,$L_{NLL} $代表负对数似然损失。

3,实验结果

3.1 数据集

从OpenScene数据集中选择具有挑战性的场景,NAVSIM数据集上训练和测试模型。

3.2 评估指标

引入预测驾驶模型得分(PDMS), 它提供了开环和闭环评估范式之间的中间解决方案,该指标与闭环指标高度相关。PDMS基于五个指标计算:无碰撞(NC)、可驾驶区域合规性(DAC)、碰撞时间(TTC)、舒适度(C)和自主车辆进展(EP)。

除PDMS外,还有扩展基准,即扩展预测驾驶模型得分(EPDMS)。扩展得分引入了两个新的加权指标(车道保持,LK和扩展舒适度,EC),两个新的乘法指标(驾驶方向合规性,DDC和交通灯合规性,TLC),以及误报惩罚过滤过程。

3.3 实现细节

采用Transfuser作为感知网络,使用ResNet34作为特征提取骨干。在融合MoE的自回归规划模块中,配置5个域特定专家$E_{\text{private}} = 5$和1个共享专家$E_{\text{shared}}$。在前向传播过程中,选择得分最高的前2个专家进行激活。
 

表 1 | Navtest基准测试对比(PDMS指标)

3.4 实验结果

定量结果:在Navtest基准测试中,ARTEMIS与多种最先进的方法进行对比,结果总结在表1中。使用ResNet-34骨干,ARTEMIS在navtest分割上获得87.0的PDMS。

在Navtest基准上使用扩展指标评估ARTEMIS(表2)。结果表明,ARTEMIS显著优于使用相同ResNet-34骨干的所有基线,取得了最先进(SOTA)的成果。ARTEMIS方法在TTC和EP等关键指标上远超其他方法。

表 2 | Navtest基准测试对比(EPDMS指标)

定性结果:图5展示了从navtest数据集中抽取的四个代表性驾驶场景,以定性评估所提出的方法。

图5 | 定性实验结果

1. 第一个示例(图5(a))描述了自主车辆通过十字路口的场景,专家行为被分类为左转或直行。通过路由网络融合的轨迹优先采用橙色专家的直行方案。

2. 图5(b)中,自主车辆接近T型路口,黄色专家选择右转,而其他专家选择直行。通过路由网络融合的轨迹结合了黄色专家结果的元素。

3. 图5(c)中,专家的规划方案显示出显著的分歧:除了红色专家外,其他专家通过简单地选择向右前方行驶来错误地处理场景,而红色专家成功捕捉了环形交叉口的道路特征并正确地绕行。值得注意的是,使用路由网络进行专家融合的最终规划轨迹主要参考了红色专家的解决方案,证明了内在路由机制的有效性和合理性。

4. 车道入口选择场景的可视化(图5(d))也清晰地揭示了不同专家在当前上下文中对不同入口车道位置的偏好。

如图6所示,在不同场景中直观地比较了ARTEMIS和Transfuser的轨迹规划性能。

图 6 | 与Transfuser对比

3.5 消融实验

组件影响分析: 三个消融变体,分别移除了带有混合专家的自回归规划模块(AME)、混合专家模块(MoE)和轨迹细化模块(TR)。如表3表示。

1. 省略自回归模块使PDMS降低3.0分,表明自回归范式对于捕捉路径点间的时间依赖性和准确适应不断变化的环境上下文至关重要。

2. 移除MoE模块导致PDMS下降4.1分,凸显了MoE架构在动态适应不同驾驶场景和行为模式方面的优势。

3. 去除级联细化模块使PDMS降低2.3分,证明了该阶段有效缓解了自回归轨迹生成过程中可能出现的采样不稳定性。

表 3 | 不同组件的消融实验结果

路由网络: 为验证内在路由机制的有效性,将其与显式驾驶指令引导方案进行比较。表4中的实验结果表明,当显式引导偏离实际场景时,内在路由机制有效地防止了不恰当地分配域特定专家。

表 4 | 专家指定策略对比实验结果

另一实验,固定模型中单个专家的激活。表5中的结果表明,单独激活任何个体专家都无法实现最优性能,强调了路由网络在促进有效专家分配方面的必要性。此外,结果还确认了模型训练过程没有表现出对任何特定专家的不成比例的偏好,表明在学习过程中专家利用是平衡的。

表 5 | 单个专家的激活策略的表现

级联细化层: 表6报告了改变细化层数对模型性能的影响。增加级联深度可以将性能提升至两层,超过这一点后,性能收益趋于稳定,边际效益diminishes。

表 6 | 不同细化层数对模型性能的影响

域特定专家:表7研究了改变专家数量的影响。将专家池从三个扩大到五个会逐步提高模型性能,表明处理复杂场景的能力得到增强。然而,扩展到十个专家会导致性能下降1.5分,这表明在有限的训练数据情况下,过多的专家会分散资源并造成功能重叠。

表 7 | 不同领域专家数量对模型性能的影响

批次重分配对训练速度的影响: 评估不同批次大小下比较了有无该策略的训练速度。如表8所示,在相同硬件条件下,批次重分配显著加速训练,随着批次大小从64增加到256,每秒训练样本从19.2提高到43.5。尽管重分配引入了额外开销,但相比专家网络计算来说微乎其微,并且被并行效率的提升所抵消。

表 8 | 不同批次重分配对训练速度的影响

4,总结展望

ARTEMIS方法,与传统的通过一次性推理综合完整轨迹的静态范式不同,它实现了一个序列决策过程,使得能够对轨迹演化进行建模。通过其集成的混合专家架构和专用路由网络,能动态捕捉驾驶行为的内在动态特征,并有效地适应不同的驾驶环境。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值