MTRDrive：一种具备动态交互式推理的自动驾驶VLA框架（清华&小米）

最新推荐文章于 2025-12-02 20:41:06 发布

原创最新推荐文章于 2025-12-02 20:41:06 发布 · 862 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#自动驾驶 #人工智能 #机器学习

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

视觉-语言-动作模型（VLA）被认为是提升自动驾驶在长尾场景中推理能力的关键路径，但现有方法在应对长时程与高层级行为决策时仍面临显著挑战。尤其在极少样本甚至零样本的复杂场景下，模型的泛化能力有限，难以在动态、不确定的道路环境中保持持续稳健的表现。当前的主要痛点可归纳为：

长尾场景中的幻觉问题：在出现频率低但安全性要求高的驾驶情境中，模型容易做出脱离现实的“幻觉式推理”，而缺失必要的自我校正和外部验证能力，使得其决策不可信赖。
因果推理不足：现有的 CoT 增强技术大多依赖于形式化的结构化认知，却未能深入捕捉模型与环境交互时的深层因果关系。这种因果推理的缺失是导致其推理可靠性和泛化能力受限的关键瓶颈。

稳健的驾驶决策高度依赖于感知准确性与推理可靠性两大核心因素的深度协同。人类驾驶员在长期与环境交互的过程中，不仅依靠实时感知，更善于借助经验积累实现动态预判与自适应调整，这一过程深刻契合了《论语》“工欲善其事，必先利其器”的古老智慧。其中，“器”不仅指驾驶工具，更指向驾驶员通过经验凝练形成的认知工具库——包括对复杂路况的识别模式、风险预估策略以及应急决策流程。人类驾驶行为本质上是一个“感知–判断–决策–行动”的动态闭环系统。驾驶员通过持续融合实时环境信息与历史经验，不断优化自身的反应策略，从而在不确定的交通场景中实现安全导航。例如，熟练驾驶员能够依据前方车辆动态、路面状态乃至环境气象特征，提前做出减速或变道等预判性操作，体现出强大的因果整合能力。

基于这一认知，清华、小米汽车、麦吉尔大学和威斯康星大学麦迪逊分校的团队联合提出 MTRDrive —— 一个将自动驾驶建模为动态交互式推理过程的全新框架，突破了传统静态、单步决策的局限。我们设计了 记忆—工具协同机制：其中，工具库调用提升了模型的感知准确性，辅助解析复杂环境信息；同时，记忆模块则通过对驾驶经验的持续增强，提升推理的可靠性，支持在长时序与高层级任务中的稳健决策。

系统性实验表明，MTRDrive 在 长尾与OOD（out-of- distribution)场景中的泛化能力与稳健性显著提升，为推动自动驾驶智能体在真实复杂世界中的落地提供了新的技术路径与理论支撑。

论文标题：MTRDrive: Memory-Tool Synergistic Reasoning for Robust Autonomous Driving in Corner Cases
论文链接：https://arxiv.org/abs/2509.20843

一、引言

视觉语言模型推动了端到端自动驾驶范式的发展，构建出一个模仿人类认知过程的统一集成系统。不同于传统模块化流水线（将感知、预测与决策功能分开处理），VLMs打破了这些功能界限，通过在统一框架内联合建模多模态输入，生成最终的驾驶行为。最近的一些工作，通过思维链等技术增强后，这类模型能在多种任务（包含视觉问答和高级别语义导航任务）中实现优异性能。

尽管取得了这些进展，当前VLMs的性能与实际部署所需的可靠性之间仍存在显著差距：模型本质上具有脆弱性，常出现视觉幻觉现象，且在分布外场景中表现不佳。在自动驾驶领域，即使是微小错误也可能导致灾难性后果，因此这类局限性成为技术落地的关键障碍。

从根本上讲，鲁棒的驾驶决策受两个关键因素影响：感知的准确性与推理的合理性。人类认知过程本身可视为一个终身反馈循环：初始经验构成我们认知模型的基础框架，随后在与环境的每一次交互中不断地被编辑和完善。

人类驾驶员的行为正是这一原理的直接体现——他们持续与环境进行闭环交互：通过持续感知确保安全，并结合实时分析与过往驾驶经验判断并执行下一步操作。这种动态、交互式的观察与反思过程，正是人类能在复杂且不可预见的场景中实现可靠导航的核心原因。

受人类这种认知过程启发，本文提出MTRDrive框架——一种基于“交互式推理”原则设计的新型架构，旨在解决当前基于VLM的驾驶智能体存在的局限性。与将每个输入视为“一次性决策”的传统方法不同，MTRDrive赋予智能体主动检索驾驶经验和使用工具查询环境的能力。如图1所示，通过从静态决策模型转向动态交互式模型，该方法能降低幻觉风险，并显著提升模型在新型未见过场景中的性能。

综上，本文的主要贡献如下：

提出MTRDrive框架，将自动驾驶建模为动态交互式过程，突破了静态一次性决策的范式局限；
设计记忆-工具协同机制，使智能体既能利用过往驾驶经验构成的知识库，又能通过主动工具获取实时信息；
实验验证，本研究提出的方案不仅能有效缓解视觉幻觉问题，更大幅提升了模型对未知场景的泛化能力，为解决VLM在真实自动驾驶环境中的可靠性难题奠定了坚实基础。

二、相关工作回顾

A. 用于自动驾驶的VLA模型

语言建模领域的最新进展为自动驾驶创造了新的可能，尤其是通过视觉-语言-动作（ VLA）系统实现。早期研究将视觉语言模型（VLMs）与文本提示相结合，生成场景描述和高层导航指令，但并未直接输出控制信号。例如，DriveGPT-4仅处理单张前视摄像头图像，生成文本描述或高层操作标签（如“减速”“左转”），而车辆的实际控制仍由比例-积分-微分（PID）控制器等传统模块负责。

后续研究（包括OpenDriveVLA和Orion）显著缩小了语言指令与车辆动作之间的语义差距，成功将自然语言融入核心的planning流程中。为进一步提升端到端pipeline的性能，研究人员基于语言模型开发了统一的VLA模型（如EMMA、LMDrive、CarLLaVA和SimLingo），并利用人类专家或仿真器生成的轨迹进行微调。

然而，这些基于数据驱动的微调方法在缓解视觉幻觉问题上效果有限，且在分布外（OOD）场景中的表现欠佳。与之不同，本文提出的框架通过记忆-工具协同推理，使智能体能够主动与环境交互，从而克服上述局限。

B. 自动驾驶中的思维链

最新一代视觉语言模型已超越单纯的解释和规划条件设定，具备支持长思维链推理的能力。自动驾驶领域的思维链方法已成为一种可解释、透明的范式，能够提升感知、认知和规划能力。相关研究（如DriveCoT、AgentDriver和Sce2DriveX）采用固定提示模板进行分步推理，丰富了上下文信息，进而在复杂场景中优化驾驶决策。

AgentThink提出了一种将工具使用能力融入VLM推理过程的框架，使模型能够动态调用工具以提高推理准确性并减少幻觉。AutoVLA和Impromptu VLA则在CoT框架内将推理过程与轨迹规划相融合，在NAVSIM和Bench2Drive等基准测试中展现出更优的泛化性能。

但这些方法通常依赖大量CoT数据来训练推理能力，不仅效率极低，且在推理过程中易产生幻觉。此外，它们在利用自动驾驶领域特有的结构化知识方面仍存在不足，这使得自动驾驶车辆难以在复杂环境中实现稳健的检测与规划。相比之下，本文方法引入了驾驶知识库以实现高效的经验复用，并设计了工具调用智能体来提供定量输出（如检测结果），最终构建了更具交互性和接地性的推理过程。

三、MTRDrive算法详解

本文提出的MTRDrive框架是一种专为自动驾驶planning设计的视觉语言模型（VLM）。该框架借鉴人类认知过程，通过整合记忆检索与工具交互来提升决策能力——模型通过检索并推理过往驾驶经验，提高规划准确性，同时将工具选择过程建立在相关先验知识基础上，从而降低视觉幻觉风险。框架的整体架构如图2所示。

MTRDrive包含两个核心组件：存储结构化驾驶经验的“驾驶经验库”，以及利用这些经验进行工具交互与决策的“经验驱动规划模块”。该架构通过将历史知识与实时感知相协同，使智能体具备更高级别的认知能力。

A. 驾驶经验库构建

为模拟人类从经验中学习的能力，我们首先构建了一个结构化、可检索的过往驾驶场景知识库。

1. 语义场景编码

经验库的核心是一个能识别语义相似过往场景的高效检索系统。尽管Qwen-VL等生成式VLM在多模态理解方面表现出色，但其复杂的架构和输入格式并不适用于自动驾驶实时性要求下的大规模、低延迟相似性检索。因此，我们需要一种优先考虑语义表示效率的嵌入模型。

本文选择CLIP的预训练视觉编码器来实现这一目标。CLIP的架构经过专门优化，可学习图像-文本联合嵌入空间，在捕捉视觉语义相似性方面表现优异。与大型生成式模型相比，CLIP编码器的推理速度更快、内存占用更小，非常适合大规模检索任务。此外，CLIP在海量图像-文本对数据集上进行训练，无需任务特定微调即可获得丰富且泛化性强的特征空间。

形式化地，对于任意给定的驾驶场景图像，视觉编码器将其映射为 latent 嵌入向量（其中）。两个场景（由图像和表示）之间的相似性通过其嵌入向量的余弦相似度计算，公式如下：

这种高效且具有语义意义的表示方法，成为从知识库中检索相关经验的关键依据。

2. 结构化经验表示

结构化知识库将每条经验形式化为“驾驶场景文档”。为便于理解，我们将其表示为元组<SD, P, H, T, M>，其中各元素定义如下：

（场景描述）：记录智能体遇到的场景信息；
（推理过程）：抽象的解决方案路径，包含智能体的思考过程和工具调用步骤；
（高层决策）：场景对应的最终目标动作；
（工具使用记录）：记录推理过程中使用的工具；
（元数据）：场景的环境背景信息（如天气、能见度等）。

通过这种结构化格式存储和检索经验，智能体不仅能学习完成任务的方法，还能理解场景上下文、常见失败模式及成功推理路径。这一过程使智能体能够主动利用工具进行自省，通过检索并应用过往相关经验来优化针对新未知场景的规划。

B. 经验驱动的工具交互与反思

1. 视觉工具集

为突破VLM自身理解能力的局限、增强其感知能力，MTRDrive配备了专门的“视觉工具集”。这套外部工具使智能体能够主动探测视觉环境，获取特定的高保真信息，主要包括以下工具：

目标检测：执行标准目标检测任务，在指定空间范围内识别并定位车辆、行人、骑行者等常见交通参与者，为理解即时驾驶环境提供基础认知；
开放世界词汇检测：突破预定义类别的限制，允许智能体根据开放词汇文本查询搜索任意物体或概念。这对于解读特殊或复杂场景至关重要，例如在施工区域附近搜索“禁止右转标志”（如图2所示场景）；
图像裁剪：提供从图像中裁剪矩形区域的功能，需输入图像路径、输出文件路径及裁剪区域坐标。该工具相当于智能体的“放大观察”机制，可用于细致检查场景中的关键区域。

2. 经验驱动的工具交互方法

尽管视觉工具集提供了强大的感知能力，但近期研究指出，多模态大型语言模型（MLLMs）在推理过程中可能对文本信息产生偏向性，导致工具选择不当或不合理。为解决这一问题，MTRDrive引入了一项核心创新——经验驱动的工具交互方法：通过检索Top-K个最相似的过往场景，模型将这些场景中记录的推理过程（）和工具使用模式（）作为强上下文先验，引导VLM做出更合理、更贴合视觉实际的工具部署决策，确保其动作与当前视觉场景直接相关，而非受文本偏差影响。

这一基于经验的工具选择原则可形式化为策略模型：

其中，表示工具选择动作，为当前视觉观测信息，为Top-K检索经验提供的上下文。该公式表明，工具使用决策不仅依赖即时感知输入，还关键依赖于相关过往知识。

3. 两阶段训练流程

为有效训练MTRDrive，我们设计了两阶段训练流程：先传授基础技能，再通过目标导向优化进行能力 refinement。

（1）作为warm-up的SFT

第一阶段为监督微调（Supervised Fine-Tuning, SFT），作为解决“冷启动”问题的关键热身环节。通过微调模型，我们教会其工具使用和记忆整合的基础语法，最终得到一个性能合格的初始策略，为后续强化学习阶段提供稳健起点。在此阶段，视觉编码器的参数保持冻结，以保留其预训练特征。

（2）用于策略优化的强化学习微调

第二阶段通过强化学习微调（Reinforcement Learning Fine-Tuning, RLFT）进一步提升模型的决策能力。我们采用GRPO算法，基于任务特定奖励信号对初始策略进行优化。GRPO通过评估从参考策略中采样的多个候选输出来引导优化过程，其目标函数定义如下：

其中，为重要性采样比，为计算得到的优势函数，为KL散度惩罚系数。

为引导模型学会策略性调用经验，我们设计了专门的“格式奖励函数” ，定义如下：

其中，“正确与否”根据检索经验与当前任务的相关性启发式判断。

完整的奖励函数由格式奖励和任务完成奖励组合而成：

其中，为最终驾驶规划的准确性奖励，为超参数，用于调节两个奖励组件的平衡。本质上，该奖励函数为模型提供了明确信号，指导其完成“何时寻求外部知识”这一元认知任务，使模型能像人类面对新挑战时那样，主动反思过往经验的实用性并加以运用。

四、实验结果分析

为验证所提出的MTRDrive框架的有效性，本章开展了一系列大量实验。实验设计围绕以下核心问题展开，以充分证明该方法的效能与鲁棒性：

问题1：交互式推理方法能否显著提升模型的泛化能力，并有效缓解幻觉问题？
问题2：MTRDrive在新构建的RoadWork-VLM基准数据集上能否展现出优异的零样本泛化能力？
问题3：两阶段训练策略如何使模型学习到高效且正确的交互行为？

除上述核心问题外，本章还在NAVSIM数据集上开展了补充实验，进一步探究高层决策对闭环轨迹预测的影响。该研究凸显了高层规划在生成准确、可靠轨迹过程中的关键作用。

实验设置

数据集

实验在两个不同的基准数据集上进行：NAVSIM和RoadWork。其中，NAVSIM是一个大规模真实世界自动驾驶数据集，主要用于非反应式仿真与基准测试。该数据集基于OpenScene构建，重点关注涉及动态意图变化的挑战性场景，同时过滤掉静态场景、恒速行驶等简单场景。为适配高层决策任务，我们对NAVSIM轨迹数据进行了进一步处理，计算车辆的动态特征（如速度及相应的角度变化），最终生成高层速度规划与路径规划结果。

然而，由于NAVSIM场景相对简单，仅依靠该数据集无法充分验证智能体应对真实驾驶复杂场景的能力。为此，我们专门测试了模型在施工区域等更复杂、未见过场景中的泛化能力。

为严格评估智能体在这类复杂环境中的零样本泛化能力与推理能力，我们基于原始RoadWork数据集构建了一个新的基准数据集——Roadwork-VLM。我们利用性能强大的Qwen2.5-VL-72B模型对整个数据集进行重新标注，根据提供的图像和轨迹信息，生成详细的场景描述、高层导航指令以及完整的思维链（Chain-of-Thought）推理序列。这一过程最终形成了一个完整的、类人化的端到端驾驶视觉语言模型（VLM）数据集，可用于测试智能体在零样本设置下执行复杂高层行为决策的能力。后续我们将开源Roadwork-VLM数据集，以推动该领域的进一步研究。

评价指标

实验从自动驾驶的两个关键方面对框架性能进行评估：长期高层规划与短期轨迹预测。

在高层规划与推理方面，采用多指标组合进行评价。核心指标为高层规划准确率，该指标严格评估智能体战略决策的正确性——仅当包含纵向速度规划与横向路径规划的完整元动作与真值完全匹配时，该规划才被判定为正确。为分析决策背后的推理过程，我们借鉴了DriveLMM-o1的方法，采用GPT-4o-mini作为自动评判器，从风险评估、常识推理和场景感知三个维度对模型的文本输出进行评价。

在细粒度短期轨迹预测任务中，采用NAVSIM基准数据集的标准评价指标——预测驾驶模型得分（PDMS），该指标用于衡量智能体预测的闭环轨迹的逐点准确性与物理真实性。

实现细节

MTRDrive智能体基于开源视觉语言模型Qwen2.5-VL-3B构建，该模型在性能与效率之间取得了良好平衡。所有实验均在16块NVIDIA H20 GPU上完成。

两阶段训练流程的配置如下：在初始的有监督微调（SFT）阶段，采用AdamW优化器，学习率设为4e-5，全局批大小设为2，对模型进行2个epoch的微调。此阶段冻结视觉编码器的参数，以保留其预训练特征。在后续的强化学习微调（RLFT）阶段，采用GRPO算法，组大小设为8，KL惩罚系数β设为0.02。所有训练阶段均采用余弦退火学习率调度器，以确保模型稳定收敛。

high-level planning的实验结果

主要结果

实验结果表明，MTRDrive在高层规划任务中展现出显著优势。在NAVSIM（SFT）基准数据集上，MTRDrive的规划准确率达到82.6%，是Qwen2.5-VL-72B（37.8%）的两倍多。在具有挑战性的RoadWork零样本场景中，MTRDrive仍保持优势，规划准确率达到33.5%，高于性能最强的基准模型（29.7%）。

值得注意的是，MTRDrive的优势并非单纯源于更强的通用推理能力。尽管大型视觉语言模型具有较高的原始推理得分，但MTRDrive在将理解转化为正确可执行规划方面表现尤为突出。在零样本场景中，MTRDrive的推理得分也具备较强竞争力，这表明经验检索机制是模型在未知环境中稳健做出合理决策的关键因素，验证了我们的核心设计理念。

从定性角度分析，MTRDrive能够成功应对基准视觉语言模型（VLM）难以处理的真实世界复杂边缘场景。在这些复杂场景中，Qwen2.5VL-32B模型常出现推理缺陷，例如对关键目标产生视觉幻觉或无法理解场景的安全隐含信息，进而导致错误且具有潜在危险的驾驶规划。与之相反，MTRDrive能够灵活检索相关过往经验，并调用工具获取决策所需的关键信息。通过将推理过程建立在检索到的上下文基础上，MTRDrive有效避免了幻觉问题，能够正确理解复杂场景（如施工区域导航、遵守禁止通行交通标志等）并做出合理决策。

消融实验

为剖析框架各组件的作用，我们开展了详细的消融实验。实验分析了有监督微调（SFT）、带自定义奖励的强化学习（GRPO）以及驾驶经验模块对模型性能的增量影响。

结果显示，未经过任何训练的基准视觉语言模型在规划任务中表现极差（NAVSIM数据集上准确率仅为1.6%）。引入有监督微调（SFT）后，模型性能获得最显著的初始提升——NAVSIM数据集上的规划准确率提升至79.9%，这表明SFT阶段成功教会了模型规划任务的基本语法与结构。随后加入GRPO算法进一步优化策略，模型的推理得分得到提升，且在RoadWork零样本场景中的规划准确率从13.3%提升至17.3%。

最重要的是，最终加入的驾驶经验模块在泛化能力提升方面发挥了不可或缺的作用：该模块不仅将同分布的NAVSIM数据集上的规划准确率提升至最终的82.6%，更使RoadWork零样本场景中的规划准确率从17.3%翻倍至33.5%。这一结果明确证明，经验检索机制是使模型能够将所学技能有效应用于新的、未见过驾驶场景的核心组件。

high-level planning对轨迹预测的影响

除评估高层规划性能外，我们还在NAVSIM数据集上开展了补充实验，探究高层决策对闭环轨迹预测的影响。该研究结果凸显了结构化推理在生成准确可靠轨迹中的关键作用。

分析从一个性能较强的视觉语言模型基准（QwenVL2.5-3B）开始：将该模型微调为纯轨迹预测器，使其无需思维链推理即可直接输出航点，此时模型的PDMS得分为84.2。而当引入“粗到细”策略——即先让模型预测高层元动作，再生成轨迹——后，模型性能显著提升，PDMS得分达到86.3。仅这一聚焦于分层规划的修改，就使模型性能超过了UniAD（83.4）和TransFuser（84.0）等高度专用化的方法。这一结果有力验证了我们的假设：将规划任务分解并利用高层推理，对提升低层轨迹质量至关重要。

在这一基础上，进一步整合GRPO训练策略与经验检索机制后，模型性能得到进一步提升。完整的MTRDrive模型最终取得88.3的PDMS得分，这一结果不仅证明了整个框架的协同优势，还达到了与WoTE等专用方法相当的当前最优性能。尽管我们的方法通过优异的高层推理实现了顶级性能，但我们认为，通过改进Recogdrive和AutoVLA等模型中的轨迹解码器，有望进一步提升性能。未来研究将探索更复杂的解码器架构，以提高轨迹输出的细粒度质量。

五、结论

本文提出了一种用于端到端自动驾驶的交互式推理框架MTRDrive，该框架有效缓解了视觉语言模型（VLM）在自动驾驶任务中的幻觉问题，并提升了其分布外泛化能力。通过整合基于记忆的经验检索机制与动态工具包，MTRDrive构建了一个类人化的闭环推理过程，使模型能够实现基于实际场景的主动决策。为验证模型的泛化能力，我们还构建了一个聚焦于复杂施工场景的新基准数据集Roadwork-VLM。

总体而言，MTRDrive将自动驾驶系统从被动感知推向了主动的、经验引导的推理阶段，使自动驾驶系统向可靠、可解释的实际部署更近一步。本文的研究为未来能够应对复杂长尾驾驶场景的视觉语言模型（VLM）类智能体奠定了坚实基础。

在未来工作中，我们计划探索将不同的专用解码器与MTRDrive框架整合，深入研究如何优化记忆检索与工具使用之间的协同作用，以进一步提升基于视觉语言模型的轨迹规划的细粒度质量。

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com