三星最新MoSE：专为自驾Corner Case设计的MoE，直接SOTA！-优快云博客

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享三星中国研究院&DS AI中心最新的工作！MoSE：面向自动驾驶的Skill-by-Skill混合专家学习框架！难例场景新SOTA。如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | LU XU等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

近期研究表明，使用网络规模数据训练的大型语言模型（LLMs）和视觉语言模型（VLMs）能够增强端到端自动驾驶系统的泛化能力和解释能力。具体而言，通过动态地将输入路由到参数的专业子集，专家混合（MoE）技术使得通用的LLM或VLM在保持计算效率的同时实现了显著的性能提升。

然而，一般的MoE模型通常需要大量的训练数据和复杂的优化过程。在这项工作中，受人类驾驶员学习过程的启发，我们提出了一种面向技能的MoE方法，称为MoSE，它模拟了人类驾驶员的学习和推理过程，逐技能、逐步进行。我们提出了一种面向技能的路由机制，从定义和标注特定技能开始，使专家能够识别各种场景和推理任务所需的驾驶能力，从而促进逐技能学习。进一步地，我们将驾驶过程与人类推理的多步规划以及端到端驾驶模型对齐，构建了一个层次化的技能数据集，并预训练路由器以鼓励模型逐步思考。与多轮对话不同，MoSE在一个单次前向过程中整合了有价值的辅助任务（例如描述、推理、规划），而没有引入任何额外的计算成本。在激活参数少于30亿的情况下，我们的模型在CODA AD corner case例推理任务中超越了多个80亿+参数的模型。与基于开源模型和数据的现有方法相比，我们的方法在单轮对话中实现了最先进的性能，同时显著减少了激活模型的大小（至少减少62.5%）。

论文链接：https://arxiv.org/abs/2507.07818

引言

具备人类水平多模态场景理解能力的系统在高度智能的应用中变得越来越重要。许多下游任务，如自动驾驶和机器人技术，都渴望使用大规模语言模型（LLMs）或视觉语言模型（VLMs），不仅是为了提高整体性能，还为了增强系统的可解释性、推理能力和交互能力。然而尽管网络规模预训练的LLMs和VLMs在一般知识方面表现出色，但它们往往缺乏特定任务所需的领域专业知识。领域特定模型通常需要大量的设计努力，以有效地将任务细节与预训练LLMs中编码的一般知识对齐，从而实现性能提升。

在自动驾驶领域，一些先前的研究展示了令人鼓舞的进展。例如，LMDrive通过使用从Carla模拟器收集的指令-轨迹数据，在轨迹预测任务上展示了有希望的结果。该模型专注于低级规划，但仍具有整合推理或交互功能的巨大潜力。OmniDrive也专注于使用相关问答（QA）对进行推理任务。它涵盖了多个子任务的问题，如感知、预测和规划，并将轨迹预测任务作为其中一个QA对。该模型可以提供更可解释的决策，但经常面临问题之间不一致的问题，并且在高层和低层规划结果之间存在差距，导致额外的设计努力来进行对齐。

DriveLM联合执行图解视觉问答（Graph VQA）和端到端驾驶。基于感知、预测、规划、行为和运动之间的人类编写的推理逻辑；提出的GVQA数据集促进了全栈驾驶任务，并作为一个综合的驾驶用语言数据集。CODA采用分层数据结构并提示强大的VLMs来分析现实世界的复杂驾驶场景。然后由人工注释者验证来自VLMs的注释。与基于NuScenes构建的DriveLM不同，CODA主要考虑驾驶中的极端情况，特别是对象级别的极端情况。

对于需要高速度和成本效率的领域，如自动驾驶来说，一个关键问题是大型预训练模型由于其庞大的模型尺寸在推理时常常表现不佳。为了解决这个问题，一种新兴的预训练LLM/VLM技术是在基于Transformer的模型中使用稀疏混合专家（MoE）层。这些层旨在通过动态激活不同的专业化子模型或“专家”来提高模型的效率和性能。稀疏MoE层可以在计算开销最小的情况下大幅扩展LLMs的容量。路由网络学会将每个输入路由到最相关的专家，从而使模型能够处理各种任务或数据域，同时仅使用每个输入的总参数的一部分。MoE-LLaVA演示了通过使用MoE技术扩展较小规模的VLMs（<3B）以在通用视觉语言任务上达到与7B模型相当的性能。

这些进展促使我们探索可行的解决方案，用于自动驾驶等下游任务，其中大规模和多样化的训练数据至关重要但昂贵。因此，直接应用MoE方法会遇到挑战，并且由于特定下游任务的数据有限，往往会导致次优性能。

在本文中，我们探讨了在任务特定的小规模（<3B）、多模态视觉语言模型（VLMs）中应用MoE技术，然后介绍了一个专为自动驾驶任务设计的有效框架。受人类学习策略的启发，我们设计了一种逐技能的学习方法，用于路由过程，并采用了以技能为中心的路由策略。该路由策略识别各种驾驶场景和驾驶阶段所需的基本驾驶技能，指导每个MoE层内的专家专门针对不同的场景，并逐步发展有效解决目标条件所需的技能。

此外，受渐进式人类驾驶行为和先前的端到端框架（如UniAD）的启发，我们在各层中进一步采用了分层路由策略，使系统能够以逐步的方式思考和操作。这种方法不仅提高了不同层次问题回答的一致性，还在单次前向传递中对齐了有价值的辅助任务（如感知、预测和规划），消除了对额外上下文或多轮问答的需求。实验结果表明，仅使用20亿+参数大小（如Qwen2VL-2B），我们的模型在自动驾驶推理任务上的性能与其他最先进的80亿+参数模型相当。总之，我们的贡献可以总结如下：

提出了一种新颖的技能混合专家（MoSE）方法，以增强小规模VLMs（<3B参数）在自动驾驶中的推理能力。受人类驾驶员学习过程的启发，我们的方法提供了更可解释的推理能力。
提出了一种面向技能的路由机制，使模型能够逐步推理，并引导专家逐技能地学习特定场景的驾驶技能。
与基于开源模型和数据的现有方法相比，MoSE在显著减少激活参数数量（至少减少62.5%）的情况下，在自动驾驶极端情况推理任务中达到了最先进的性能。

算法详解

本节介绍了所提出的技能混合专家（MoSE）方法。给定一个视觉信号和用户指令，我们开发了一个基于 MoSE 的视觉语言模型（VLM）来生成驾驶推理结果：

输入的视觉信号可以是单视角、多视角图像或视频，而主要包含关于驾驶感知、预测、规划、推理和建议的问题。

如图 2(a) 所示，整个系统处理多模态输入，包括图像格式的视觉观察和文本格式的语言交互输入，并生成基于文本的输出。我们在案例和任务两个层面都将通用 MoE 应用于逐技能学习，每个任务被分解为多个层次，对于每个案例，在不同层次激活不同的技能。我们从语言-视觉对齐、指令调优的小规模 VLM 开始，插入 MoE 层，然后使用少量标记数据启动路由器预训练。这一步使路由器专注于技能路由，而不是令牌级别的区分。路由器学会在每个阶段表征必要的技能并激活相应的技能专家。在路由器训练完成后，我们对整个模型进行监督微调。按照 Qwen2-VL 的方法，我们采用预训练的视觉transformer（ViT）作为视觉编码器，并保持现有的视觉令牌处理流程不变。在训练过程中，我们仅微调 MoSE 块，同时冻结模型的其余部分。

Skill Centric Routing Mechanism

在通用MoE中，路由网络自动学习为每个单独的令牌选择激活的专家。训练后的路由器倾向于关注区分不同领域或模态，这可能不足以应对某些任务，例如自动驾驶。与互联网规模的数据相比，自动驾驶图像和视频具有更高的相似性，问题也遵循特定的模式。这些因素给 MoE 训练带来了额外的挑战，需要精心设计的架构和学习策略来解决数据规模和多样性的限制。

为了实现逐技能学习，路由器必须对驾驶场景和输入文本有更精细的理解，从而根据整体驾驶情境在每个必要阶段引导专家的选择。为了模拟人类的推理和学习过程，我们设计了一种以技能为中心的路由机制，引导模型逐技能地学习和思考。为了构建这种机制，我们首先定义我们的任务——自动驾驶所需的基本技能。需要注意的一点是，这些技能可以在不同的数据集中共享。有了这些技能后，我们使用基于规则的方法或其他大型 VLM（如 GPT-4o）进行数据标注。数据质量直接与技能定义相关，因此可以通过调整技能来优化人工标注的努力。有了技能数据后，我们预训练所有目标层的路由器，训练后的路由器可以引导专家遵循一条分层路径并逐步生成答案。

技能定义

为了构建这种以技能为中心的路由机制，我们首先定义驾驶技能。在此过程中，我们遵循两个关键原则：

考虑到路由器引入的参数，复杂度应最小化以简化路由。
定义的技能应覆盖所有数据，并适用于多个数据集。

为了满足这些要求，我们在每个层次结构级别上引入一个通用技能。一方面，这个通用技能确保了全面的技能覆盖，特别是对于相对模糊的样本。另一方面，由于某些样本可能不需要所有层次结构级别，我们将通用技能分配到未使用的级别以确保这些样本的覆盖。

整体技能定义流程可见于图 3 阶段 1，我们利用现有的最先进的大型模型（如 GPT）来定义驾驶技能。在定义过程中，我们提供来自不同数据集的示例，利用其固有的世界知识。我们还结合了人类驾驶经验作为补充信息。最后，GPT 在不同层次结构级别生成技能定义，这些技能进一步由人类进行精炼。以图 2(a) 中的图像和问题为例，我们在每个层次结构级别上标注激活的技能。

我们的模型在不同阶段关注不同的层次结构级别，并在每个级别激活相应的技能。在这种技能定义下，跨层次结构级别的激活技能形成一个结构化的链，一种可能的结构化链如图 2(c) 所示。这个链有两个主要目的：首先，它促进了 MoSE 的推理和训练；其次，它在推理阶段提供了更好的解释。例如，在图 2(c) 所示的例子中，模型首先检测特定区域内的所有关键对象。然后预测这些对象的可能行为，并最终评估它们的重要性和优先级。基于这个链，模型确定当前场景中哪些对象可能影响驾驶决策。这种结构化的推理过程提供了有价值的调试线索，并增强了与用户的互动，从而提高了用户对模型的信任。

技能数据标注

根据技能定义，我们从目标数据集中随机抽取一部分数据，并用相应的技能进行标注。根据数据特征，我们采用基于规则和基于 VLM（如 GPT）的标注方法（见图 3 阶段-2）。

对于相对结构化的问题和一般场景，我们使用基于规则的方法进行标注。这些规则将不同的步骤进一步划分为具体的技能，例如问题是否关注整个图像或特定区域。这种方法有几个优点：成本更低、准确性更高，并且能够在最小成本下进行大规模标注。

对于基于规则的方法无法提供可靠标注的情况，我们使用基于 GPT 的标注。在此过程中，输入包括场景图像、自车的当前状态和真实轨迹。此外，我们维护一个预定义的标注规则列表，该列表作为提示的一部分包含在内。这些规则指定了以下条件：对于不完整的样本，应使用通用技能。

在基于 GPT 的标注过程中，我们不断自动和手动地完善和扩展标注规则列表，以提高标注质量。结果可以获得更高品质的标记数据。有关我们的标注提示的更多细节，请参阅补充材料。

尽管技能标注需要额外的努力，但我们表明 MoSE 只需要相对较小的数据子集即可开发分层技能路由机制（见实验部分）。此外，对于基于 GPT 的标注，手动数据验证并非严格必要，因为在技能定义阶段已经考虑了标注和路由的困难。

路由器预训练

在获得技能标注数据后，受最近工作的启发，我们在不同层次结构层预训练路由器。为了进一步提高效率，我们取前一层所有令牌的平均令牌。以作为输入，训练损失函数可以表示为公式 (2)。

专家网络和训练

在构建分层技能路由机制之后，我们构建 MoSE 层，包含一个共享专家和多个技能专用专家。共享专家始终被激活以捕捉全局信息，增强模型的鲁棒性。所提出的以技能为中心的路由机制确保专家不仅发展场景特定的技能，而且在推理的不同阶段获得不同的技能。

按照标准做法，我们采用了稀疏 MoE 配置，其中所有偶数 Transformer 层中的原始 FFN 层都被提议的 MoSE 模块替换，如图 2(b) 所示。这种设计平衡了模型可扩展性与总参数数和活动参数数之间的关系。

我们通过生成损失以自回归的方式优化 LLM 的输出。给定输入图像和文本，模型逐步生成每个元素。对于所有可训练参数，损失可以表示为：

其中是输出序列，是总输出长度。我们仅计算个元素的损失，即新生成的文本。

MoSE 的扩展

为了进一步增强模型的能力并在不重新训练路由器的情况下进行扩展，我们提出了带有专家组的 MoSE。整体模型流程如图 4 所示。基于预训练路由器的路由结果，我们构建一组专家，其中多个专家被分配给个子技能。具体来说，对于当前任务，我们采用模态特定专家策略，其中，不同的专家处理不同的模态，如文本或图像。也就是说，我们在每个专家组内分配两个专家：一个用于处理图像令牌，另一个用于处理相应特定技能下的文本令牌。这种策略只涉及技能专家，共享专家保持不变。

实验结果分析

数据集设置

我们在 CODA 数据集上进行主要实验，该数据集专为自动驾驶推理任务设计。该数据集收集了驾驶场景，并提取了可能影响自车的物体，最终的驾驶建议是在考虑所有关键物体的基础上生成的。与其他驾驶推理数据集相比，CODA 专注于多模态极端情况，并考虑了层次化的数据结构。它要求模型生成包含多个物体描述和分析的相对较长的答案。在本文中，我们遵循官方的训练和测试设置，并使用 GPT-4o 进行评估。

为了进行技能标注，我们获得了如图 5 所示的技能定义。

模型设置

我们在 Qwen2-VL-2B的基础上进行了 MoSE 实验，这是一个小规模的 VLM。我们共适配了 14 层 MoSE 层。实验结果表明，相对均匀的层次分布能够带来更好的性能。因此，在最终配置中，我们将层分别分配给感知、预测和规划。

输入图像的大小设置为 [800, 450]，以平衡图像质量和 GPU 内存。我们遵循一般 MoE 的稀疏设置，仅有一半的层配备了 MoSE。在预训练阶段和微调阶段，我们将专家数量设置为 4，并使用 1 个共享专家。此外，我们还在相同的骨干模型上尝试了一般的 MoE 方法（记为结果表中的 Qwen2-VL MoE），并使用与我们的 MoSE 相同的专家数量和激活专家数量。

我们在监督微调设置下对 QwenVL2-2B 进行微调（记为 Qwen2-VL SFT）。对于层次化技能路由，我们使用基于规则的方法对 2000 个技能样本进行标注，以预训练路由器。

在 CODA 上的实验结果

表 1 显示了我们与其他最先进模型在 CODA 上的结果比较。CODA 包含不同的子集，一般的感知任务在于全面理解驾驶场景中的关键道路实体（记为“General”），区域感知任务则关注于提供特定边界框时对极端情况物体的理解（记为“Regional”），而驾驶建议任务旨在制定驾驶建议（记为“Suggest.”）。结果使用 GPT-4o 进行评估，这也是根据 CODA 的相同评估模型（记为“Score”）。报告的结果包括通用的开源和闭源模型，以及专业模型。

表 1 中的结果显示，使用不到 30 亿参数，所提出的 MoSE 超过了其他具有更多参数的最先进方法。TSLVLM+GPT4V 虽然表现最佳，但它依赖于 GPT 进行精炼。

在表格底部，我们将 MoSE 与基线方法、MoE 和 SFT 进行比较。结果显示，采用 MoE 来扩展基础模型能有效提升性能。然而，这也增加了训练难度，并对数据提出了更高的要求。

从 MoE 使用 8 个专家的结果来看，性能下降表明 CODA 训练集不足以完全支持模型的训练，这经验性地证明了一般直接采用 MoE 遇到挑战，并且往往导致次优性能。相比之下，所提出的 MoSE 优于 MoE。此外，尽管 MoSE 模型与 MoE-8-1 具有相同的训练数据，但其性能并未下降。相反，它实现了轻微的改进，我们认为这是由于层次化技能路由带来的有效数据利用。

除了评估结果在驾驶建议任务上的性能提升外，还需要提到的是，CODA 的官方设置使用上下文的一般结果和对象结果来生成最终的驾驶建议。在我们的设置中，我们进行单轮问答，没有多轮对话和长上下文。

在图 7 中，我们可视化了 MoE 层中每个专家的相似性。在可视化过程中，我们可视化了最后一个 MoE 层，并分析了其中一个 MLP 层的权重。在 MoE 框架中，专家之间的更大差异性通过促进专业化和高效的资源分配增强了模型性能。当专家之间高度不同时，每个专家都能专注于特定的任务或输入分布子集，从而实现更精细的表示和更好的决策。这种差异化有助于减少冗余，确保专家贡献独特的知识，而不是在功能上重叠。此外，更多样化的专家减少了对同一数据的竞争，使得路由器能够做出更具区分性的分配，提高训练效率和泛化能力。如图 7 所示，通过层次化技能路由策略，我们的专家具有更多样化的权重。有关其他层的可视化，请参见补充材料。

进一步分析

训练数据大小

在图 8 中，我们讨论了不同训练数据大小下的模型性能。在训练过程中，我们随机抽取一半和四分之一的常规、对象和驾驶建议问答题，从 CODA 开始，并在相同设置和相同数据集下训练 MoE 和 MoSE，使用官方测试集进行评估。随着数据规模的增加，我们观察到 MoE 模型在训练一半数据时达到性能峰值，数据量继续增长时没有进一步提升。我们假设这一平台期可能是由于专家分配的方式所致。

相比之下，采用层次化技能路由训练的模型在性能上表现出稳步提升。这已在所提出的 MoSE 的两个版本中得到验证。这表明，随着数据集规模的增加，MoSE 有可能实现更好的训练结果。

技能标注的数据大小

鉴于所提出的 MoSE 相比于原始 MoE 依赖于一小部分标注数据，我们可能会想知道这一额外需求是否会限制模型在其他数据集或任务中的适用性，或者是否会影响其可扩展性。为了解决这个问题，我们设计了实验来证明 MoSE 并不依赖大规模的额外数据进行预训练，而是只需要一个极小的子集。在表 2 所示的实验中，我们分别使用 2000 和 3000 个技能标注样本对模型的路由器进行预训练。结果表明，进一步扩大技能数据集不会带来额外的性能提升，从而确认 MoSE 不受需要大量额外标注的限制。

在其他数据集上的扩展

在本节中，我们在 DriveLM 数据集上进一步进行了实验，使用不同的骨干网络和技能设置。相比于 CODA，DriveLM 数据集基于 nuScense 数据集，包含更多常见场景。同时，DriveLM 更加关注驾驶规划和轨迹估计，并且问题更加多样化。

在实验中，我们遵循不同的技能设置，并基于 StableLM-1.6B构建了一个 MoSE。对于每个驾驶场景，我们基于场景本身设置一个技能，并使用 GPT-4o 构建技能数据集。在 DriveLM 中，六视角图像被用作输入。考虑到骨干模型的令牌长度限制，我们在输入前将图像两两配对以减少令牌数量。

在实验过程中，我们随机选择原始训练集的六分之一作为测试集，其余数据用于训练。

实验结果如表 3 所示。从结果可以看出，所提出的 MoSE 在 DriveLM 数据集中使用不同设置时表现更好，再次证明了所提出的 MoSE 的有效性，并显示出它可以轻松扩展到其他任务。（更多信息请参见补充材料）

结论与展望

在本文中，我们提出了一种任务导向的专家混合方法，称为技能专家混合（Mixture-of-Skill-Experts，MoSE），该方法模拟了人类的学习和推理过程。通过所提出的层次化技能路由策略，模型逐步从数据集中学习，逐技能地掌握驾驶任务的关键能力。

实验证明，精心设计的、以技能为中心的路由机制在自动驾驶任务中能够实现卓越的性能。它有效地平衡了模型复杂度、训练效率和数据需求，为未来的发展提供了有希望的方向。此外，我们还提出了一种扩展策略，进一步提升了模型的能力，而无需额外的数据或预训练。

进一步的实验表明，MoSE 的层次化技能路由不仅在数据规模增加时提升了性能，而且通过仅需在专家组内引入极少量的额外层，保持了良好的可扩展性。

局限性与未来工作

尽管 MoSE 表现出色，但我们的模型仍存在一些局限性。首先，目前我们的 MoSE 模型是在相对较小的数据子集上训练的，这意味着其性能仍有提升的空间。其次，当前的模型主要设计用于推理相关任务，尚未直接涉及轨迹估计。因此，需要进一步的实验来验证 MoSE 是否也能在轨迹估计任务中发挥作用。

此外，将轨迹估计与闭环评估（例如在 Carla 等仿真环境中）相结合，可以进一步增强 MoSE 的实际应用价值。类似于通用的 MoE 方法，MoSE 可以轻松适配到各种预训练模型中，并用于多样化的下游任务微调。这些方向将在未来的研究中进一步探索。

参考

[1]MoSE: Skill-by-Skill Mixture-of-Expert Learning for Autonomous Driving

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com