同济大学最新！GEMINUS：端到端MoE实现闭环新SOTA，性能大涨近8%~

原创于 2025-07-23 07:30:44 发布 · 931 阅读

CC 4.0 BY-SA版权

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享同济大学最新的工作！GEMINUS：MoE与端到端融合，单目视觉自动驾驶达SOTA！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Chi Wan等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

端到端自动驾驶需要能够自适应且鲁棒地处理复杂多样的交通环境。然而，当前主流的单模态规划方法试图学习一个整体策略，却难以获得多样化的驾驶技能来应对各种场景。因此本文提出了GEMINUS，一种基于专家混合（Mixture-of-Experts, MoE）的端到端自动驾驶框架，该框架包含一个全局专家（Global Expert）、一个场景自适应专家组（Scene-Adaptive Experts Group），并配备了一个双感知路由器（Dual-aware Router）。具体而言，全局专家在整体数据集上进行训练，具备稳健的性能；场景自适应专家则在相应的场景子集上进行训练，以实现自适应性能。双感知路由器同时考虑场景级特征和路由不确定性，从而动态激活专家模块。通过双感知路由器对全局专家和场景自适应专家组进行有效耦合，GEMINUS在多样化场景下实现了自适应与鲁棒性兼具的性能。

GEMINUS在Bench2Drive闭环基准测试中超越了现有方法，在驾驶评分（Driving Score）和成功率（Success Rate）上均达到了最先进水平，即使仅使用单目视觉输入。此外，消融研究表明，相较于原始的单专家基线模型，GEMINUS在驾驶评分上提升了7.67%，在成功率上提升了22.06%，在MultiAbility-Mean上提升了19.41%。代码将发布于：https://github.com/newbrains1/GEMINUS。

论文链接：https://arxiv.org/abs/2507.14456
代码链接：https://github.com/newbrains1/GEMINUS

简介

近年来，自动驾驶领域的一个突出研究方向是端到端。与由感知、预测和规划等模块化流水线组成的传统自动驾驶系统不同，端到端方法直接将原始传感器输入映射为规划轨迹、控制信号，或由轨迹分支和控制分支融合输出的结果。这些方法为驾驶提供了一个整体模型，能够朝着全局目标进行统一优化，显著减少了人工工程的工作量，并允许直接利用丰富的传感器信息。

尽管具有显著优势，但当前端到端自动驾驶模型存在一个持续性的局限，即它们在整个训练数据集上进行全局模仿学习。这种通常采用L2损失的单模态规划方法，本质上将复杂的输出空间建模为单一高斯分布，导致倾向于模态平均（mode averaging）。因此，其性能受到损害，因为生成的输出代表了跨多种场景的平均行为，而非针对当前特定场景的最优策略。这最终限制了模型获取多样化驾驶技能以应对不同场景的能力。

先前的方法采用了基于指令的条件模仿学习来缓解模态平均问题。然而，这种方法存在一个固有的局限性：仅依赖驾驶指令不足以区分复杂场景（例如，一个超车场景可能同时包含左转、直行和右转指令）。这种僵化的分类未能全面考虑丰富的场景信息，从而阻碍了驾驶技能多样性的捕捉。

受专家混合（Mixture-of-Experts, MoE）架构在大型语言模型（LLMs）中成功处理复杂数据分布的启发，MoE架构在解决自动驾驶领域的挑战方面展现出巨大潜力。通过提供细粒度的场景适应性和专门的行为生成，MoE可以缓解模态平均问题，并增强模型在多样化驾驶场景中的适应能力。然而将主要为静态文本数据设计的通用MoE架构直接迁移至自动驾驶领域，暴露出其内在的不适用性。具体来说，由于缺乏明确的场景划分，它们难以实现有效的专家专业化；并且未能充分考虑自动驾驶所需的鲁棒性要求。

因此本文提出了GEMINUS：一种用于端到端自动驾驶的dual-aware全局与场景自适应专家混合框架（dual-aware Global and scEne-adaptive MIxture of experts for end-to-end autoNomoUS driving）。具体而言，全局专家在整体数据集上进行训练，具备稳健的性能；场景自适应专家在对应的场景子集上进行训练，以实现自适应性能；双感知路由器同时考虑场景级特征和路由不确定性，从而动态激活专家模块。通过双感知路由器对全局专家和场景自适应专家组进行有效耦合，GEMINUS能够在多样化场景下同时实现自适应和鲁棒的性能。本文的贡献可总结如下：

提出了一种新颖的专家混合（MoE）端到端自动驾驶框架GEMINUS。该框架通过双感知路由器有效地整合了全局专家和场景自适应专家组，旨在在特征明显的场景中实现自适应性能，在特征模糊的场景中实现鲁棒性能。
为端到端自动驾驶引入了一种双感知路由器，其独特设计兼具场景感知（scenario-awareness）以识别不同场景间的差异，以及不确定性感知（uncertainty-awareness）以建模路由不确定性。
为了进一步探究GEMINUS的内在路由机制，我们分析了不确定性阈值对驾驶性能的影响，并在验证集上考察了路由器的准确率和专家利用率。

算法详解

图1展示了GEMINUS的整体架构。该框架以TCP的某些设计理念为基础，首先建立了一个单专家基线模型。在此基础上，我们将其与双感知MoE（Dual-aware MoE）相结合，最终形成了GEMINUS端到端自动驾驶框架。

预备知识

端到端自动驾驶。 端到端自动驾驶的目标是直接将原始传感器输入映射到相应的轨迹或控制指令。在本文中，原始传感器输入包括：一个前视摄像头图像、自车速度、一个高层导航指令以及一个目标点。原始传感器输入由端到端模型处理。编码器首先处理这些输入以生成中间特征。这些特征随后被送入一个轨迹规划器。轨迹规划器生成一条规划轨迹，包含K个时间步的航路点。这条规划轨迹随后被送入一个比例-积分-微分（PID）控制器。控制器进而产生最终的纵向控制信号：油门、刹车，以及横向控制信号：方向盘转角。

专家混合模型（Mixture-of-Experts）。 MoE架构通过采用“分而治之”（divide and conquer）的策略，为解决多模态数据分布的复杂性提供了一种原则性的方法。将MoE框架引入端到端轨迹规划，整体策略分布通常被表示为K个组件策略分布的概率混合，每个组件由一个专家参数化，并由一个门控网络加权，其形式化表达为：

通过灵活地耦合多个策略分布，这种概率公式为有效建模端到端轨迹规划中的多模态分布并解决模态平均问题提供了有前景的框架。尽管学习此类混合模型可能存在非凸优化挑战，但MoE的深度学习实现通常会通过识别和分配最合适的专家来简化这一过程。值得注意的是，采用硬分配（Hard Assignment）方法（即为给定样本选择单一的“最佳”专家）的模型对于多模态分布非常有效且计算高效。这是因为硬分配直接选择了最匹配的行为模态，避免了所有专家输出的平均化，从而进一步缓解了模态平均问题。基于这些理论基础，本文提出了GEMINUS，这是一种专门为多样化且复杂的自动驾驶场景量身定制的独特MoE框架。其核心是一个具备场景感知和不确定性感知能力的双感知路由器，用于从全局专家和场景自适应专家组中动态激活专家。在推理阶段，双感知路由器处理由编码器提取的中间特征。它根据不确定性度量和场景专家的分数来确定最终输出，其形式化表达为：

其中，是输入特征，表示预定义的不确定性阈值，是所有场景自适应专家的集合。当较低（）时，选择路由分数最高的专家。这在特征明显的场景中实现了精确且特定于场景的规划。相反，当场景的不确定性较高（）时，模型选择全局专家。这确保了在特征模糊的场景中具有鲁棒性能。这种设计使得GEMINUS能够有效避免模态平均问题，从而在多样化场景下实现自适应和鲁棒的性能。

单专家基线模型

特征编码器。 图像编码器基于ResNet34架构，并在ImageNet上进行了预训练。该编码器处理前视摄像头输入图像，并输出一个1000维的特征嵌入向量。同时，一个测量编码器接收一个拼接后的输入并生成一个128维的测量特征向量。输入包含自车速度、高层导航指令和导航目标点。最后，和被拼接形成后续轨迹规划器和路由器使用的组合特征。

轨迹规划器。 轨迹规划器接收上游的组合特征向量作为输入。该输入随后通过一系列线性层进行下采样，形成一个256维的特征向量。此特征向量随后被送入一个航路点生成器GRU。GRU模型自回归地逐个生成未来的航路点，从而形成未来个时间步的航路点序列。纵向和横向控制器处理这些航路点，以生成最终的纵向控制信号（油门，刹车）和横向控制信号（方向盘转角）。

场景感知路由机制

朴素的MoE（Vanilla MoE）旨在平衡专家在GPU上的负载，以最大化利用输入特征的优势。然而，当处理异构输入分布时，这会导致专家之间知识共享效率低下。例如，汇入（Merging）场景的驾驶策略与紧急制动（Emergency Brake）场景的策略显著不同。为了解决这种低效性并促进专业知识的形成，我们引入了一种场景感知路由机制。该机制借鉴了文献中的数据集感知路由思想。

受Bench2Drive中场景分类的启发，我们将五种自动驾驶场景类别进行分类：汇入（Merging）、超车（Overtaking）、紧急制动（Emergency Brake）、让行（Give Way）和交通标志（Traffic Sign）。在训练阶段，场景感知路由器被显式地训练，以根据其对应的场景类别对输入特征向量进行路由。设为一组预定义的场景类别。一个输入特征向量属于某个场景（）。我们定义一个映射函数，该函数将每个场景类别分配给一个特定的场景自适应专家。这里，表示场景自适应专家组。为了强制执行此路由策略，我们设计了一个路由器损失。该损失被构造成交叉熵损失，它在路由器预测的专家选择概率（表示选择专家的概率）和与来自场景的输入对应的目标专家标签之间计算：

其中，是指示函数。该损失确保所有源自特定场景类别的输入主要被分派到其指定的场景自适应专家。通过基于其场景特征选择性地路由输入，该机制促进了每个专家内部高效的知识专业化，从而使模型能够学习自适应的驾驶策略。

不确定性感知路由机制

尽管场景自适应专家在特征明显的场景中表现出色，但仅依赖它们在特征模糊的场景中可能会出现问题，这会损害鲁棒性，尤其是在自动驾驶这样的安全关键应用中。为了减轻这种风险并确保在多样化场景下的可靠性能，我们引入了一种不确定性感知路由机制。

原始输入首先由编码器处理形成特征向量。然后，路由器根据特征向量计算一个在专家上的概率分布，记为。随后，计算该分布的信息熵[32]以反映路由器决策的不确定性：

为了将此熵归一化到范围，需将其除以理论上的最大熵。当概率在所有专家上均匀分布（即对所有，）时，达到最大熵，其值为。因此，归一化的信息熵定义为：

这个归一化的信息熵作为场景不确定性的度量。接近0的值表示高确定性，意味着场景清晰，路由器有信心。相反，接近1的值表示高不确定性，意味着场景模糊，路由器难以决断。

损失函数设计

GEMINUS使用结合了多个目标的综合损失函数进行训练。

全局专家损失。 全局专家旨在提供一个稳健的、泛化的驾驶策略。其损失包含三个主要项。

轨迹模仿损失。 这一项鼓励全局专家准确预测未来的航路点。它最小化预测航路点和真实航路点之间的L1距离，形式化表达为：其中，和分别是在K个时间步的预测范围内第步的真实航路点和预测航路点。
特征对齐损失。 该损失确保一致的特征表征。它衡量全局专家输出特征与其对应专家特征之间的L2距离。这作为一个额外的监督信号，形式化表达为：其中，表示来自全局专家的中间特征表征，是用于对齐的对应专家特征。
价值对齐损失。 这一项指导全局专家预测当前状态的期望回报。它采用L2损失，形式化表达为：其中，是由全局专家的价值分支预测的价值，是来自Think2Drive专家的对应价值。

全局专家损失综合如下：

其中， , , 和是可调节的损失权重。

场景自适应专家组损失。 场景自适应专家组由N个不同的专家组成。每个专家被训练以掌握特定场景的策略。该组的损失被计算为各个专家损失的加权和。对于给定的样本，只有被路由到的那个自适应专家才对该损失有贡献。如果被路由到专家，则计算其损失。该计算类似于全局专家损失的组成部分。其形式化表达为：

对于整数， , , 和分别是专家在样本上的轨迹模仿、特征对齐和价值预测损失。这些损失的定义与全局专家类似。是指示函数，确保只有被激活的专家的损失对特定样本有贡献。

路由器损失。 路由器损失旨在有效地训练双感知路由器，使其能够做出准确的专家选择决策。该损失对应于公式(3)中描述的。

速度预测损失。 为了增强智能体估计其当前动态状态的能力，集成一个专用的速度预测头。该头从编码后的特征中预测当前自车速度。为此预测任务采用L1损失，最小化预测速度与真实速度之间的绝对差值，记为。

总损失。 训练GEMINUS模型的总损失函数是上述所有损失分量的加权和：

其中， , , , 和是经验确定的加权系数，用于平衡每个损失项的贡献。

实验结果分析

实验设置

数据集。 GEMINUS在官方的Bench2Drive训练数据集上进行训练。该数据集由Think2Drive （一个具备潜在世界模型的强化学习专家）收集而成。为了与现有基线方法进行公平比较，本文使用基础数据集（1000个片段）进行训练和开环验证。该数据集包含一个由950个片段组成的训练集和一个由50个片段组成的开环验证集。每个片段代表一个特定的交通场景，长度约为150米。

评估指标。 在闭环评估中，GEMINUS在Bench2Drive官方提供的220条路线上进行评估。这些短路线被组织成44个交互式场景，每个场景包含5条不同的路线。闭环评估指标包括驾驶评分（Driving Score）、成功率（Success Rate），以及Bench2Drive定义的五个多能力（MultiAbility）指标：汇入（Merging）、超车（Overtaking）、紧急制动（Emergency Brake）、让行（Give Way）和交通标志（Traffic Sign）。

实现细节。 输入RGB图像的分辨率为900 × 256像素。未来预测步数设为，预测频率为2 Hz。对于PID控制参数，我们采用了Transfuser中提出的经过良好调优的参数。具体而言，纵向控制的PID参数设置为；横向控制的PID参数设置为。对于不确定性阈值，通过实验确定了最优值。在训练阶段，首先将训练数据集划分为五个主要的场景子集。这一划分受到Bench2Drive对驾驶技能分类的启发。每个子集包含具有特定场景ID的样本。对于汇入、超车、紧急制动、让行和交通标志子集，其对应的场景ID分别为[0, 1, 2, 3, 4]。损失函数的权重系数配置如下： , , , , , , 和。所有实验均在单块NVIDIA GeForce RTX 4090 GPU上进行，批量大小（batch size）为96，训练32个周期（epochs）。采用Adam优化器，初始学习率为，权重衰减（weight decay）为。在第30个周期后，学习率降低为原来的二分之一。

与SOTA对比

如表I所示，GEMINUS在Bench2Drive闭环基准测试中，在驾驶评分（Driving Score）和成功率（Success Rate）上均达到了最先进水平。值得注意的是，GEMINUS仅依赖单目视觉输入，却超越了Bench2Drive基准中使用6相机图像输入的现有方法。

尽管GEMINUS在开环平均L2误差上并未表现出更优越的性能，但此类指标主要反映模型的收敛性，而无法可靠地评估实际驾驶能力。这一点已在先前的研究（如TransFuser++和Bench2Drive）中得到强调。相比之下，闭环指标能够对实际驾驶能力提供更稳健的评估。

当仅聚焦于单目视觉方法时，GEMINUS相较于现有的单目视觉最先进方法——TCP-traj*，取得了显著提升。GEMINUS的驾驶评分提高了9.17%，成功率提高了25.77%，开环平均L2误差降低了5.88%。此外，如表II所示，多能力均值（MultiAbility-Mean）提升了10.37%。

消融研究

如表III所示，消融研究揭示了GEMINUS各个组件的关键贡献。

比较VanillaMoE-E2E与SingleExpert-E2E。 显然，直接将通常用于大型语言模型（LLMs）的通用MoE框架引入自动驾驶领域，并不能提升模型性能。在没有特定适应的情况下，它甚至导致驾驶评分和成功率略有下降。这证实了我们的假设：端到端自动驾驶系统需要一种更定制化的MoE框架，以专门应对真实世界驾驶场景的多样性和复杂性。
比较ScenarioMoE-E2E与SingleExpert-E2E。 场景感知路由机制全面提升了模型性能。驾驶评分提升了2.72%，成功率提升了4.40%，多能力均值提升了8.95%。该机制的引入不仅增强了模型在多样化场景中的自适应性能，也使其路由逻辑更具可解释性。
比较GEMINUS与ScenarioMoE-E2E。 进一步整合不确定性感知路由机制和全局专家带来了额外的性能增益。驾驶评分提升了4.83%，成功率提升了22.06%，多能力均值提升了19.41%。不确定性感知路由机制和全局专家的集成显著增强了模型的鲁棒性和稳定性，尤其是在路由器无法自信地判断当前状况的模糊场景中。

不确定性阈值分析

为了探究不确定性阈值对模型性能的影响，我们将不确定性阈值从0.0到1.0以0.1为步长进行变化，并在Bench2Drive基准上进行了一系列闭环评估。如图3所示，随着的逐渐增加，模型的驾驶评分和成功率呈现出先上升后下降的趋势，并在时达到最优。这表明，当路由器的不确定性低于0.5时，场景感知路由做出的选择是可靠的，自适应专家的性能有助于提升整体模型性能。相反，当路由器的不确定性大于或等于0.5时，场景感知路由无法做出可靠决策，此时需要全局专家介入，以确保模型性能的鲁棒性和稳定性。

路由器准确率与专家利用率

为了更好地理解GEMINUS框架的内在路由动态，我们在Bench2Drive的开环验证集上进行了分析。该分析重点关注开环评估期间的两个关键方面：路由器预测准确率和专家利用率。路由器预测准确率被定义为路由器正确识别对应场景的样本比例。专家利用率指全局专家和五个场景自适应专家的激活率。

路由器准确率。 如表IV所示，路由器的整体场景预测准确率达到了68.06%。值得注意的是，交通标志子集与汇入和紧急制动子集存在重叠。在这种情况下，单个样本可能涉及多个场景，因此实际的预测准确率可能更高。这表明场景感知路由在大多数情况下能准确判断当前场景。然而，它在少数场景中的准确预测仍存在困难。对五个验证集场景的进一步检查发现，在超车和交通标志场景中，路由器表现出最高的预测准确率，这主要是因为这些场景具有显著的视觉线索（如障碍物或交通标志），极大地增强了路由器准确预测场景的能力。相比之下，让行场景的预测准确率最低，仅为2.89%。这种差异源于两个主要因素：首先，让行子集仅占训练集的3.16%和验证集的4.00%，这在官方的Bench2Drive数据集中构成了固有的数据不平衡问题；其次，GEMINUS依赖单目视觉输入，这限制了其在让行场景中检测后方来车的能力，从而阻碍了准确的场景预测。
专家利用率。 如表V所示，“总体”一栏显示全局专家的利用率为6.29%。这表明GEMINUS在大多数情况下优先路由至场景自适应专家，以利用它们的场景特异性能力。全局专家主要在高度模糊的场景中被调用，以确保鲁棒和稳定的性能。此外，将表V中“全局专家”一行的数据与表IV中的路由器准确率进行对比分析，可以观察到一个清晰的模态：在路由器预测准确率较高的场景（如超车1.09%和交通标志6.04%）中，全局专家的利用率最小；相反，在三个路由器预测准确率较低的场景中，模型表现出更高的全局专家利用率，这有助于维持鲁棒性和稳定性能。

结论

本文提出了GEMINUS，一种专为端到端自动驾驶量身定制的全新双感知专家混合（Dual-aware MoE）框架。通过双感知智能路由器将全局专家与场景自适应专家组进行有效耦合，GEMINUS在特征明显的场景中实现了自适应性能，在特征模糊的场景中实现了鲁棒性能。

在Bench2Drive基准上进行的闭环评估表明，GEMINUS超越了现有方法，并仅依靠单目视觉输入就在驾驶评分（Driving Score）和成功率（Success Rate）上达到了最先进水平。此外，消融研究证明了其相较于原始单专家基线模型的显著提升：驾驶评分提升了7.67%，成功率提升了22.06%，多能力均值（MultiAbility-Mean）提升了19.41%。同时本文分析了不确定性阈值对模型性能的影响以确定其最优值。此外对路由器准确率和专家利用率的深入分析揭示了GEMINUS内部的路由机制。

本研究受限于使用单目相机输入。为了使路由器能够更全面地考虑场景信息，探索采用多相机输入的双感知路由是未来研究的一个有前景的方向。此外，一个值得探索的研究方向是用低秩自适应（LoRA）模块替代GEMINUS中的专家网络，从而构建一个“LoRA混合”（Mixture-of-LoRA）架构，以实现更优的参数效率和更灵活的模型微调。

参考

[1]GEMINUS: Dual-aware Global and Scene-Adaptive Mixture-of-Experts for End-to-End Autonomous Driving

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com