超越ORION！CoT4AD：显式思维链推理VLA模型（北大最新）

原创于 2025-12-02 08:01:19 发布 · 622 阅读

16 ·

CC 4.0 BY-SA版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Zhaohui Wang等

编辑 | 自动驾驶之心

北大一篇新的VLA工作 - CoT4AD。这篇文章重点解决的是下面这个问题：现有VLA模型通常存在数值推理能力有限和输入-输出映射过于简化的问题，所以在需要逐步因果推理的复杂驾驶场景中的性能表现一般。

所以本文提出了CoT4AD——一种新的VLA框架，其将思维链推理引入自动驾驶领域，以增强VLM的逻辑推理和因果推理能力。CoT4AD整合视觉观测和语言指令，实现语义推理、场景理解与轨迹规划。训练阶段，该模型明确构建了“感知-提问-预测-动作”的思维链，使推理空间与多个驾驶任务的动作空间对齐；推理阶段，其通过隐式思维链推理，在动态环境中实现一致的数值推理和稳健的决策制定。在真实世界数据集（nuScenes）和仿真数据集（Bench2Drive）上的大量实验表明，CoT4AD在开环和闭环评估中均取得了最先进的性能。

论文标题：CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving
论文链接：https://arxiv.org/abs/2511.22532

背景回顾

自动驾驶作为人工智能与机器人领域的核心研究方向，近年来受到了广泛关注。它不仅有望提升交通安全性和出行效率，还在智慧城市与智能交通系统的发展中发挥关键作用。传统自动驾驶系统通常采用模块化流水线架构，将感知、预测和规划分解为独立模块。然而，此类方法在实际应用中常面临误差累积、跨模块优化困难以及泛化能力有限等问题，制约了自动驾驶系统在复杂环境中的性能表现。

为应对这些挑战，端到端自动驾驶范式应运而生。这类方法旨在利用统一的学习框架，直接从原始传感器输入预测驾驶控制信号或规划轨迹，从而避免多阶段信息传播带来的不确定性。与此同时，随着大规模视觉-语言模型（VLMs）的快速发展，研究人员开始探索视觉-语言-动作（VLA）模型在端到端自动驾驶中的潜力。VLA模型能够处理多模态输入，并通过语言指令执行语义推理，与传统端到端方法相比，展现出更强的可解释性和泛化能力。

通过在多样化数据集上进行模仿学习，VLA模型继承了VLMs对异质场景、物体和语言的理解能力，实现了稳健的跨任务泛化。然而，它们也继承了VLMs的固有缺陷——尤其是在复杂环境中的数值推理能力较弱。因此，将VLMs应用于自动驾驶面临两大核心挑战：（1）有限的数值推理能力导致不可靠或幻觉的结果；（2）现有方法将大语言模型（LLMs）视为从感知到数值输出的单一映射器，忽视了其多步推理能力。

思维链（CoT）推理通过将复杂任务分解为中间步骤，显著增强了LLM的推理能力。尽管已有研究通过语言描述、关键点或边界框等方式引入CoT，但这些工作主要聚焦于环境受限的具身智能或机器人场景。然而，自动驾驶面临着本质上不同的挑战——它要求在动态、大规模且安全关键的环境中实现精准的数值推理、长时域规划和稳健的泛化能力。如图1（b）所示，直接将所有提示输入VLM会导致输出不稳定，而融入CoT则能够实现结构化的中间推理，获得更可靠的结果。本研究试图解决一个关键问题：如何为自动驾驶量身定制思维链推理，以提升效率和性能？

为此，我们提出了CoT4AD——一种新的VLA模型，其将思维链推理整合到端到端自动驾驶中。如图1所示，CoT4AD与现有方法的不同之处在于：通过针对自动驾驶场景设计的一系列下游任务，对开源预训练语言模型进行微调，使其能够显式或隐式地执行思维链推理。这一设计使模型能够从多模态输入生成可靠且稳定的驾驶轨迹。

我们的统一框架整合了环境感知、语言推理、未来预测和轨迹规划，使模型能够生成显式的思维链推理步骤。在感知推理阶段，模型通过专家数据训练感知任务，获取场景理解能力；在未来预测阶段，模型从专家数据中学习预测未来场景，实现场景重建；在视觉问答（VQA）推理阶段，模型通过基于提示的监督在视觉问答任务上进行微调；在轨迹规划阶段，模型通过模仿学习生成高质量的驾驶轨迹。通过多阶段训练过程，CoT4AD培养了适用于自动驾驶场景的思维链推理能力。推理阶段，CoT4AD无需显式生成中间推理步骤，即可通过单次前向传播直接输出驾驶轨迹，在规划性能与计算效率之间实现了平衡。

我们在真实世界数据集nuScenes和仿真数据集Bench2Drive上对CoT4AD进行了全面评估。实验结果表明，在开环和闭环测试中，CoT4AD在各类端到端自动驾驶基准测试中均表现出卓越性能。

主要贡献总结如下：

提出了CoT4AD——一种端到端自动驾驶框架，其利用经过多步微调的预训练VLM，能够基于原始视觉观测和语言指令实现思维链推理和多任务处理能力。
为驾驶场景的未来预测和轨迹规划引入了创新方法。该基于扩散模型的框架整合了现有的视频生成和规划方法，并与思维链推理流水线无缝衔接。
在NuScenes和Bench2Drive数据集上的大量实验表明，CoT4AD在开环和闭环驾驶中均建立了新的最先进结果，持续优于现有的基于LLM的方法和端到端自动驾驶方法。

CoT4AD算法详解

3D环境感知

在现有VLA模型中，视觉特征通常通过2D编码器提取，这类编码器在平面任务中表现良好，但在建模3D结构和空间关系方面存在不足。由于缺乏多视图深度信息和几何一致性，这些模型无法准确感知3D环境。为解决这一局限，CoT4AD采用了以特征为中心的感知训练方式，通过学习多个3D感知任务生成3D视觉token。

如图2（a）所示，CoT4AD以多视图图像作为输入。首先，2D backbone网络提取多尺度特征，随后利用相机参数将这些特征投影到鸟瞰图（BEV）空间，得到BEV特征。模型采用PB-SSM框架实现高效的多视图融合，之后通过两个视觉模块对结构化3D语义进行编码：用于静态元素（车道、可行驶区域）的地图tokenizer（）和用于动态目标（车辆、行人）的目标tokenizer（）。其中，从BEV patches中生成地图token ，而则在上应用ROI对齐（ROI Align），得到目标token 。

为补充基于标注学习的局限性，本文进一步引入BEVTokenizer：该模块直接将BEV特征划分为个patch，生成全面的BEV token 。最终的环境表示为，该表示将作为思维链（CoT）推理的感知阶段输入。

视觉-语言提示微调

现有VLA模型的视觉-语言微调通常局限于图像token和语言token的调整，缺乏对感知token与其他多模态表示的联合优化。为解决感知模型提取的多特征token在环境表示能力上的不足，以及自然语言离散化嵌入的问题，本文提出一种基于视觉问答（VQA）的多模态视觉-语言微调框架。

在微调阶段，模型从VQA数据集中学习高级感知能力和驾驶知识，实现从多模态token到数值推理空间的迁移。受软提示微调的启发，本文引入跨阶段无关token（记为）：这类可学习的离散化token在训练过程中用于编码视觉细节，并作为输入贯穿思维链推理的不同阶段。软提示微调的有效性已在图像分类、数值推理等多种基于Transformer的任务中得到验证，后续实验将证明，该方法在端到端自动驾驶任务中同样有效，能够提升多模态感知与语言推理的融合效果。

如图2（b）所示，本文将VQA数据集构建为提示-响应对，其中，用于编码自车状态（如速度、加速度、偏航角）。在指令微调过程中，视觉tokenizer保持冻结状态，而大型语言模型（LLM）设置为可训练。视觉-语言提示微调的数学表达式如下：

VLM-Conditioned Latent Diffusion

现有VLA系统常受限于文本级推理，忽略了现实世界丰富的多模态特性。受自动驾驶领域“世界模型”（通过生成未来帧学习物理规律）的启发，本文利用VLM条件扩散模型生成未来帧，使模型能够更深入地理解世界丰富的语义信息和物理规律，而非仅依赖文本或单帧信息。如图2（b）所示，本文提出的VLM条件扩散模型工作流程如下：

借鉴Latent扩散模型（LDM），本文训练编码器将图像压缩为更小的空间表示，同时训练解码器通过恢复未来帧。通过在latent空间中进行扩散建模，避免了在高维像素空间中直接扩散，从而显著加快扩散模型的训练速度。

LDM的前向过程定义为向latent空间逐步添加噪声，其数学表达式为：其中，为干净的latent变量，为时刻的带噪声帧，为超参数。

在反向过程中，本文训练扩散Transformer ，使其根据带噪声帧和条件嵌入重建（其中）。与从高斯分布中采样噪声不同，本文从当前帧构造带噪声帧，具体公式为：其中，。

训练阶段，扩散Transformer 以带噪声帧和条件嵌入为输入，预测去噪后的latent变量。训练目标结合了latent变量重建损失和噪声预测损失，公式如下：

推理阶段，本文采用截断去噪过程：首先从基于当前帧的高斯分布中采样带噪声latent表示，然后在VLM生成的条件嵌入的约束下逐步对其去噪，最终得到预测的。在每个去噪步骤中，采用DDIM更新规则迭代优化latent状态，以过渡到下一时刻。最后，通过解码器对进行解码，得到预测的未来帧。

通过这种基于latent空间的VLM条件扩散生成方法，VLA模型能够学习未来场景预测，从而形成对场景变化的视觉推理能力，进一步提升对环境语义和物理规律的理解。

思维链轨迹规划

在该阶段，CoT4AD基于思维链对未来驾驶动作进行规划，驾驶动作以路径点序列表示。本文采用3.3节中提出的VLM条件扩散规划方法，但与latent空间扩散不同（如图2（b）所示），本文直接在动作空间进行扩散。

首先，通过对数据集进行K均值聚类，得到动作锚点，并从中初始化采样噪声。扩散Transformer 以带噪声动作和条件嵌入为输入，预测去噪后的轨迹和分类分数，数学表达式如下：其中，为条件嵌入，为时间戳。

训练过程中，对视觉编码器、视觉扩散Transformer、规划扩散Transformer以及LLM进行联合优化。为加快推理阶段的前向传播速度，模型无需显式生成中间步骤和图像，而是直接从环境token和提示中生成作为条件嵌入。在每个去噪步骤中，扩散Transformer将前一步预测的轨迹作为输入，并采用DDIM更新规则优化下一时刻的预测结果。

实验结果分析

本节首先介绍两个广泛使用的数据集：nuScenes数据集与Bench2Drive数据集；随后在这两个数据集上对所提方法进行评估，并与当前SOTA的VLA模型展开对比；此外，通过可视化分析阐释所提方法的有效性；最后在Bench2Drive数据集上开展消融研究，验证各模块的作用。

数据集

nuScenes数据集：nuScenes是自动驾驶领域用于感知任务与开环规划任务的多模态基准数据集，包含1000个时长20秒的场景（数据采集于波士顿与新加坡），标注频率为2Hz；数据集按700/150/150的比例划分为训练集、验证集与测试集。在此基础上，nuScenes-QA将其扩展为视觉问答（Visual Question Answering, VQA）基准数据集：通过生成场景图与多种问题类型（如目标存在性、数量统计、属性描述、特征对比），考察模型在多模态推理任务中的性能。

Bench2Drive数据集：Bench2Drive是用于闭环端到端自动驾驶的基准数据集，由上海交通大学Thinklab团队提出。该数据集基于CARLA V2仿真环境构建，可在交互式动态场景下全面评估自动驾驶系统的性能。为保证基线对比的公平性，Bench2Drive定义了包含1000个片段的基础数据集，通常按950/50的比例划分为训练集与开环验证集；每个片段对应特定交通场景下的连续驾驶路段（长度约150米）。Chat-B2D是在Bench2Drive基础上扩展的VQA数据集（由ORION提出），为Bench2Drive数据集中的每个驾驶场景自动生成“问题-答案”对，可在闭环仿真环境中评估模型的语义推理能力。

评估指标

在nuScenes数据集上开展开环评估，采用L2距离误差（衡量轨迹预测精度）与平均碰撞率（衡量驾驶安全性）作为评估指标。
在Bench2Drive数据集上同时开展开环与闭环评估，采用的评估指标包括：驾驶得分（Driving Score, DS）、成功率（Success Rate, SR）、效率（Efficiency）、舒适性（Comfortness） 及综合能力（Multi-Ability）。

与SOTA对比

nuScenes数据集对比：表1展示了当前主流端到端自动驾驶方法在nuScenes数据集上的性能（采用UniAD定义的评估指标）。CoT4AD取得了极具竞争力的结果：在1秒、2秒、3秒时域下的L2距离误差分别为0.12米、0.24米、0.53米（平均值为0.29米），显著优于OpenDriveVLA、EMMA等最新基于VLM的方法。安全性方面，CoT4AD的平均碰撞率低至0.10%，证明其轨迹预测的稳健性与可靠性。
值得注意的是，与需结合规划器轨迹的方法不同，CoT4AD仅以自车BEV（鸟瞰图）状态和相机图像为输入，却能持续实现比OmniDrive++更低的预测误差与碰撞率——这体现了所提“思维链（CoT）推理”的强大能力：可增强模型在复杂场景下的驾驶轨迹预测性能。

Bench2Drive数据集对比：表2展示了各类端到端自动驾驶方法在Bench2Drive基准数据集上的闭环评估结果。其中，“CoT4AD”代表模型直接端到端输出轨迹，“CoT4AD-CoT”代表模型通过分步思维链推理生成轨迹。
所提的CoT4AD与CoT4AD-CoT模型均取得了最优综合性能：具体而言，CoT4AD-CoT的驾驶得分（DS）高达81.22，成功率（SR）达55.78%，超过ORION、DriveTransformer-Large等强基线方法。在效率与舒适性方面，本文方法实现了性能平衡——与易产生“突发操控”的Transformer-based方法相比，CoT4AD的操控行为更平滑、更接近人类驾驶。
需特别说明的是，两种版本的CoT4AD均仅依赖相机输入和导航指令，却优于需额外结合激光雷达（LiDAR）或专家蒸馏信号的模型。这些结果充分证明：所提的思维链推理框架可增强决策一致性，提升模型在多样化场景下的驾驶可靠性。

定性结果

为进一步验证所提方法在复杂场景下的规划能力，本文将CoT4AD与UniAD进行定性对比。如图3所示，选取两个具有代表性的驾驶场景，每个场景包含3帧连续图像，以展示模型的决策过程：

场景1（避障变道）：任务要求模型通过变道避开前方障碍物。两种方法均生成了合理的变道轨迹，但CoT4AD的轨迹更平滑、更连续，在第3帧中与障碍物保持了更大的安全距离。
场景2（超车机动）：任务要求模型完成超车动作。UniAD未能提前识别超车意图，导致加速度不足、超车距离有限，无法安全完成超车；而CoT4AD可更早识别超车意图并主动规划，在保持较近跟车距离的同时平稳加速、变道，最终成功完成超车。

这一对比表明，CoT4AD具备更强的时序推理能力和高层语义理解能力，可实现更接近人类的“场景感知型”驾驶行为。综上，定性结果验证了所提“思维链推理”的优势：不仅提升了轨迹的平滑性和安全性，还增强了模型在复杂交通交互场景下的稳健性和决策可解释性。更多定性可视化结果及视频请参见附录。

消融研究

（1）感知Tokenizer的有效性：表3展示了各Tokenizer（令牌生成器）的详细消融结果。实验发现，基于感知标签的Tokenizer（ID 1和ID 2）可带来较强性能：例如，仅使用（地图Tokenizer）或（目标Tokenizer）即可显著提升成功率（SR），说明感知标签能为规划任务提供有价值的指导。
直接基于视觉特征的Tokenizer（ID 3 vs ID 4）也能取得较好性能，但效果弱于基于感知标签的Tokenizer（成功率50.88% vs 39.64%）。而将感知特征与视觉特征结合后，模型性能进一步提升，取得了最优闭环指标——这表明：尽管有限的感知标签可提供部分环境信息，但图像特征能保留更完整的语义信息，二者结合可增强模型的整体性能。

（2）思维链（CoT）设计的有效性：表4展示了思维链预训练各步骤的详细消融结果。移除基础感知模块（ID 1 vs ID 2）会导致驾驶得分（DS）和成功率（SR）显著下降（DS：66.44→59.89；SR：36.86%→27.95%），说明视觉感知特征对安全、有效的驾驶至关重要。类似地，移除VQA模块（ID 1 vs ID 3）也会导致性能下降（但降幅较小：DS 64.38→59.89；SR 33.22%→27.95%），表明视觉问答推理能为驾驶决策提供有用的上下文信息。
而“未来扩散模块”对性能的影响最大：仅启用该模块时（ID 4），模型的DS和SR均大幅提升（DS：72.38；SR：45.22%），这凸显了“预测未来状态”在闭环控制中的重要性。其原因可能是：与有限的标注标签相比，模型通过自监督学习从未来预测中获取了更丰富的感知表示。最终，结合所有模块的模型（ID 5）取得了最优性能（DS：80.24；SR：55.22%），证明感知、VQA推理、未来预测三者相辅相成，可共同提升驾驶性能。

（3）未来场景预测数量的有效性：图4展示了“预测未来场景数量”对模型性能的详细消融结果。当预测未来场景数量从0增加到8时，模型性能逐步提升，在“预测4个未来场景”时达到峰值（成功率55.78%）；但当预测数量超过这一最优阈值后，模型性能开始下降——这是因为过多的未来信息会导致模型负载过重、引入混淆，进而降低成功率。该结果表明：“未来场景预测”的引入需兼顾“信息量”与“模型负担”，找到平衡至关重要。

结论

在本文中，我们提出了CoT4AD模型，该模型可在自动驾驶场景中实现显式思维链推理。通过采用“感知-视觉问答-扩散-规划”构成的多步推理流程，该模型在视觉空间、推理空间与动作空间间实现了更好的对齐，能够为驾驶任务提供更平滑、更精准的规划。在两个数据集上开展的实验表明，CoT4AD性能优于现有最先进方法，验证了所提方法的有效性。

尽管CoT4AD在显式推理下表现优异，但仍受限于多步思维链推理的计算复杂度以及扩散模型的训练不稳定性。在未来工作中，我们计划探索更高效的思维链推理机制，以实现实时自动驾驶。

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com