纯视觉最新SOTA!AdaThinkDrive:更灵活的自动驾驶VLA思维链(清华&小米)

自动驾驶VLA的思维链应该更灵活。

尽管思维链(Chain-of-Thought, CoT)等推理技术已广泛应用于视觉-语言-动作(Vision-Language-Action, VLA)模型,并在端到端自动驾驶中展现出良好性能,但现有融合CoT推理的方法在简单场景中往往表现不佳——不仅未提升决策质量,还会引入不必要的计算开销。

为解决这一问题,清华&小米等团队提出AdaThinkDrive:一种受“快慢思考”理论启发、具备双模式推理机制的新型VLA框架。具体而言,该框架首先在大规模自动驾驶(Autonomous Driving, AD)场景上进行预训练,通过问答和轨迹数据集获取世界知识与驾驶常识;在SFT阶段,引入包含“快速回答(无CoT)”和“慢速思考(有CoT)”的双模式数据集,使模型能够区分需要推理的场景;此外,本文还提出“自适应思考奖励策略”,并结合GRPO通过比较不同推理模式下的轨迹质量,对模型选择性应用CoT的行为进行奖励。在Navsim基准测试集上的大量实验表明,AdaThinkDrive的预测驾驶模型评分(Predictive Driver Model Score, PDMS)达到90.3,比最佳纯视觉基线模型高出1.7分;消融实验进一步显示,该模型性能优于“永不思考”和“始终思考”两种基线模型,PDMS分别提升2.0分和1.4分,且推理时间较“始终思考”基线模型减少14%,证明其能通过自适应推理实现准确率与效率的平衡。

  • 论文标题:AdaThinkDrive: Adaptive Thinking via Reinforcement Learning for Autonomous Driving

  • 论文链接:https://arxiv.org/abs/2509.13769

更多关于自动驾驶VLA、思维链和强化学习的前沿进展及技术讨论,欢迎加入自动驾驶之心知识星球!与4000名自动驾驶从业人员&学术大佬一同交流。

一、引言

近年来,自动驾驶系统正从传统的模块化流水线逐步转向端到端架构。尽管模块化方法具有工程灵活性,但存在组件间信息损失的问题,导致在复杂和长尾场景中出现累积误差,泛化能力受限。端到端方法通过在统一模型中联合优化感知、预测与规划,在一定程度上缓解了这一问题,但其对有限有监督数据的依赖仍限制了模型的鲁棒性。为解决该问题,近期研究开始探索视觉-语言模型(Vision-Language Models, VLMs),通过大规模驾驶数据集预训练提升模型的场景理解能力。

当前基于VLM的自动驾驶方法主要分为两类:一类是元动作方法,专注于生成高层指导信息;另一类是基于规划的方法,通过语言建模直接预测轨迹。后者中,思维链(CoT)技术的应用日益广泛,其能生成结构化输出,同时提升模型的可解释性与轨迹质量。然而CoT在自动驾驶VLA中的应用仍处于起步阶段。

为探索CoT的应用潜力,本文在不同场景复杂度下对VLA模型的推理性能展开对比研究。具体而言,我们将驾驶场景划分为三个复杂度等级(如图1a所示)。实验发现,对于InternVL3-8B和2B两种模型,在简单场景(1级)中,“非思考模型”(Non-Think)性能更优;而随着场景复杂度提升(2级和3级),“思考模型”(Think)则持续表现更佳。这一结果揭示了现有CoT方法的关键局限:在简单场景中易出现“过度推理”。尽管CoT推理在复杂场景中能带来显著收益,但在简单场景中会增加不必要的认知步骤,并提升不确定性。

上述发现表明,最优推理策略并非通用,而是取决于场景复杂度。因此,要提升自动驾驶的决策准确率与推理效率,让模型基于场景复杂度选择性地启用推理,就成为一项关键需求。

基于此,本文提出AdaThinkDrive——一种具备“快速回答/慢速思考”机制的视觉-语言-动作(VLA)端到端轨迹预测框架(如图1b所示)。首先,我们对Navsim基准测试集展开系统分析,评估现有方法在不同场景复杂度下的性能;在此基础上,设计三阶段自适应推理策略,使模型能在可学习奖励机制的引导下,自主决定何时推理、何时直接执行动作。在实现层面,我们首先在大规模驾驶数据上对模型进行预训练;随后,使用定制化的双模式Navsim规划数据集进行有监督微调(SFT),使模型既能生成“思考”(Think)输出,也能生成“非思考”(Non-Think)输出;最后,采用GRPO作为强化学习算法,并构建兼顾“轨迹准确率”“动作合理性”与“推理简洁性”的奖励结构。这种设计使AdaThinkDrive能在规划性能与计算效率之间达到最优平衡。

本文的主要贡献如下:

  1. 针对不同场景复杂度,对VLA模型中CoT的性能展开对比研究。通过在Navsim基准测试集上评估“思考”与“非思考”两种范式,发现现有CoT方法在简单场景中存在过度推理的关键局限,进而凸显自适应推理策略的必要性;

  2. 提出AdaThinkDrive端到端VLA框架,其“快速回答/慢速思考”机制能基于场景复杂度,在“直接预测”与“显式推理”之间自适应切换;此外,基于GRPO设计“自适应思考奖励策略”,指导模型自主决定何时推理、何时直接执行动作;

  3. 在Navsim基准测试集上,AdaThinkDrive的PDMS达到90.3,比最佳纯视觉基线模型高出1.7分;同时,该模型展现出优秀的自适应推理能力:在96%的复杂场景中选择性启用CoT,在84%的简单场景中默认采用直接轨迹预测;此外,与“始终思考”基线模型相比,其推理时间减少14%,充分证明该框架能有效平衡高性能与计算效率。

二、相关工作回顾

自动驾驶中的视觉-语言-动作模型(VLA)

近年来,视觉-语言模型(VLMs)在自动驾驶领域受到越来越多的关注,其通过融合视觉与文本输入,实现感知、规划与决策的一体化。目前该领域的方法大致可分为两类范式:第一类聚焦场景理解与高层推理,例如Senna模型通过解读传感器输入生成元动作,为下游规划器提供指导,但对实际驾驶性能的提升仍有限;第二类范式则从原始输入中直接预测驾驶轨迹。为提升模型的可解释性与准确率,近期方法逐渐引入中间推理过程(思维链,CoT),以揭示内部决策机制。例如EMMA、ReasonPlan和Sce2DriveX等研究表明,领域专用推理能显著改进轨迹预测效果。然而,本文分析发现,CoT的优势主要体现在复杂场景中,在简单场景中不仅难以带来收益,甚至可能产生负面影响。

高效推理模型

随着长思维链(Long CoT)在大语言模型(如DeepSeek)中日益普及,冗长的推理过程导致计算成本大幅增加。AdaptThink通过对比实验提出解决方案:对于简单任务,直接输出答案的准确率更高;而对于复杂任务,推理过程能提升性能,从而在效率与准确率间取得平衡。当前主流的自适应CoT触发方法多基于强化学习,核心在于token级控制与奖励设计,主要可分为三类:(1)简洁推理,通过奖励塑造或严格长度约束实现推理过程的简洁化;(2)动态早期终止,允许模型自适应终止推理;(3)按需推理,使模型能根据任务复杂度自主决定是否启动推理。

在自动驾驶场景中,“何时慢速思考、何时快速响应”的决策尤为关键:在高速公路巡航等简单场景中,无需复杂推理即可实现准确预测;而在路口或拥堵环境等复杂场景中,模型必须仔细分析场景、识别关键智能体,才能生成合理轨迹。本文旨在让模型高效地在必要时启动慢速思考,并在不同推理模式间自适应切换。

三、AdaThinkDrive算法详解

本节详细阐述所提出的AdaThinkDrive框架设计,主要包括三部分内容:(1)数据准备(含预训练数据与混合SFT数据);(2)两阶段监督微调模块(为模型提供有效初始化);(3)基于强化学习的复杂度感知自适应思考(提升模型效率与准确率)。整体框架如图2所示。

问题建模

输入查询包含前视图像、高层导航指令(如“前进”“左转”“右转”)、自车状态信息(如速度、加速度)以及近三帧的历史轨迹。AdaThinkDrive支持两种推理模式思考(),非思考(。给定查询,模型根据联合分布共同确定推理模式与输出,公式如下:

对于每个查询,所选模式需最大化任务特定的期望效用,即:

模型的总体目标是学习一个策略,为每个查询选择合适的模式,以最大化查询分布上的期望效用:

数据准备

为使模型具备基础驾驶知识,并理解何时应用CoT推理更有利,我们首先进行如下数据准备工作。

预训练数据

为将通用VLMs适配到自动驾驶场景,我们整合了多个开源驾驶问答数据集,包括DriveLM、LingoQA、ImpromptuVLA、NuScenes-QA、NuInstruct和OminiDrive。此外,在SFT阶段,我们遵循CoT范式为Navsim构建了多轮问答推理数据集,涵盖道路边界估计、关键目标识别、自车动作预测及相关场景理解子任务。

混合SFT数据

SFT数据集包含“推理密集型”与“直接回答型”两类样本:推理数据由辅助模型结合规则化方法生成,确保推理轨迹的高质量;对于交通灯状态、天气条件等详细场景描述,利用Qwen2.5-VL-72B自动生成细粒度标注。

为捕捉场景的动态交互特性,我们识别出可能与自车发生交互的动态智能体,并将其分为三类(如图3所示):(1)路径内最近目标(CIPO-1):位于自车车道内的智能体;(2)潜在并入目标(CIPO-2):根据车道几何结构与相对位置判断,可能并入自车车道的智能体;(3)运动交互目标:预测轨迹与自车轨迹存在交集的智能体。对于道路边界等静态元素,利用Navsim地图重建车道拓扑结构,识别自车未来行驶路径上的关键边界特征。

此外,针对数据集中的每个查询,我们同时生成“思考型”响应(保留完整推理过程)与“非思考型”响应(省略显式推理,但保持结构一致性)。所有样本中,轨迹均直接填充至指定标签区域。最终构建的有监督数据集记为,该SFT数据用于“预热”模型,使其具备区分两种响应模式的基础能力,具体流程可参考图2。

场景分类

为支持自适应推理,我们将Navsim训练集与验证集按复杂度分为三个等级(Level 1、Level 2、Level 3),分类标准与“思考型/非思考型”数据集的构建逻辑一致,主要依据两个因素:(1)自车是否靠近道路边界;(2)是否存在可能影响驾驶决策的关键目标。其中,Level 1为“无上述两种情况”的场景,Level 2为“仅满足一种情况”的场景,Level 3为“两种情况均满足”的场景。我们将数据集定义为,其中对应Level 1(简单场景),对应Level 2与Level 3(复杂场景),这两类标签为下游强化学习提供了原则性初始化依据。

两阶段监督微调

为构建兼具驾驶知识与轨迹规划能力的模型,我们设计了两阶段微调流程:第一阶段注入通用驾驶知识,第二阶段聚焦轨迹生成能力与输出格式合规性。

在第一阶段,模型在大规模驾驶相关问答语料上进行预训练,提升对驾驶领域认知的理解能力,覆盖可行驶区域识别、目标定位、交通语义理解等任务。

在第二阶段,引入轨迹预测任务:对于每个查询,生成两种输出——含推理过程的,以及仅含最终轨迹的

微调过程中,模型同时对两种输出进行监督训练,目标是最大化条件概率,损失函数定义如下:

该训练策略使模型能在统一接口下学习“思考”与“非思考”两种推理模式,且对任一模式无偏向性。最终,模型可针对任意查询生成两种响应,为GRPO阶段的自适应推理奠定基础。

基于强化学习的自适应思考

经过SFT后,AdaThinkDrive已具备对同一查询生成两种推理模式的初始能力,但不会出现模式“坍缩”(即仅输出单一模式)。然而,我们的目标是让策略模型自适应选择最优推理模式以提升效率,因此在有监督学习之外,额外引入强化学习阶段,明确教会模型如何在不同模式间切换,同时优化规划能力。

为使模型既掌握“如何推理”,又理解“何时推理”,并能利用推理过程实现准确轨迹预测,我们设计了四个互补的奖励组件:PDMS奖励、格式奖励、端点奖励与自适应思考奖励。

PDMS奖励

轨迹奖励采用预测驾驶模型评分(PDMS)作为评估指标,取值为0到1的离散值,直接反映轨迹的整体质量。

格式奖励

格式奖励用于确保输出符合预设格式,包括标签的正确使用(如指定的轨迹标签与推理标签),以及预测轨迹的标准化表示。对于格式违规的任一环节,均给予离散惩罚,以保证输出结构与内容的一致性。

端点奖励

为促进预测轨迹与真实轨迹的端点对齐,我们基于最终点的L1距离设计分段式端点奖励:偏差小于2米时得满分1.0,偏差在2-4米、4-6米、6-10米、10-15米时分别递减至0.8、0.6、0.4、0.2,偏差大于等于15米时得0分。该设计既对大幅误差进行惩罚,又能敏感捕捉端点附近的小幅偏差。

自适应思考奖励

在强化学习训练过程中,策略模型的能力会动态演变,同一场景在训练不同阶段可能被模型判定为“简单”或“复杂”。为应对这一动态性,我们设计了自适应思考奖励,用于指导模型学习“何时思考”,避免过度依赖人工定义的静态场景标签。这些人工标签仅作为推理的初始依据,防止模型出现“模式坍缩”(即仅输出“思考”或“非思考”模式,无法适配场景的实际推理需求);而动态调整机制则允许模型根据实际推理需求修正场景标签,逐步学习自适应思考,同时提升决策效率与预测准确率。

自适应思考奖励通过多轮采样(rollouts)引导模型动态调整推理行为,详细流程如图4与算法1所示。

强化学习过程中的总奖励由上述四个定制化奖励组件加权整合得到。

本文采用GRPO作为训练算法:对于每个查询,从旧策略中采样一组候选输出,并基于这些输出的奖励信号优化当前策略。为保证训练稳定性、避免策略剧烈波动,GRPO引入了“截断重要性权重”与“KL散度正则项”——前者抑制过度的策略更新,后者限制当前策略与参考策略的偏差。GRPO的最终优化目标定义如下(其中为超参数,相对优势基于一组候选输出的标准化奖励差值计算):

通过强化学习,策略模型可形成自适应推理策略,能根据不同复杂度的场景动态调整推理模式。

实验结果分析

数据集与评估指标

数据集

本文在NAVSIM数据集上开展全面的实验与评估——该数据集是基于OpenScene平台构建的、以规划为核心的自动驾驶数据集。除了从NAVSIM中采集的推理数据外,本文还对多个开源数据集(如DriveLM、ImpromptuVLA、LingoQA)进行格式重构,将其视觉问答(VQA)样本调整为更适配CoT推理的形式,以进一步丰富训练数据。

评估指标

NAVSIM基准测试提供了非反应式仿真环境,并采用预测驾驶模型评分(PDMS) 作为闭环规划指标。该指标整合了5个子指标,从多维度评估自动驾驶性能:

  • 无责任碰撞(No At-Fault Collision, NC):衡量无责任碰撞事件的发生率;

  • 可行驶区域合规性(Drivable Area Compliance, DAC):评估车辆对可行驶区域的遵守程度;

  • 碰撞时间(Time-to-Collision, TTC):反映车辆与障碍物的安全距离余量;

  • 舒适性(Comfort, CF):量化驾驶过程的平稳性;

  • 自车进度(Ego Progress, EP):评估车辆沿规划路线的行驶效率。

PDMS通过对上述子指标的综合计算,形成对自动驾驶闭环规划能力的整体评价,指标值越高表示性能越优。

实现细节

本文以InternVL3-8B作为基础模型,训练过程分为三个阶段,具体参数设置如下:

  1. 第一阶段(驾驶知识预训练):在大规模驾驶知识数据集上进行有监督微调,训练轮次(epoch)为2,学习率1×10⁻⁵,批次大小(batch size)为1;

  2. 第二阶段(轨迹生成微调):在含“思考”与“非思考”标注的Navsim规划数据集上微调,训练轮次为2,学习率4×10⁻⁵,批次大小为2;

  3. 第三阶段(强化学习优化):采用强化学习训练,训练轮次为2,学习率2×10⁻⁶,批次大小为4,训练硬件为64块NVIDIA H20 GPU。

此外,自适应思考奖励中的置信度阈值(T)设置为0.9。

性能对比

AdaThinkDrive的整体性能

表I展示了AdaThinkDrive与当前主流方法在NAVSIM基准测试上的闭环指标对比。在纯视觉输入设置下,AdaThinkDrive的PDMS达到90.3,刷新了该设置下的最优性能(SOTA)。与此前纯视觉最佳方法Hydra-NeXt相比,AdaThinkDrive的PDMS提升了1.7分,充分证明其在模型建模能力与轨迹预测准确性上的显著优势。

尽管仅依赖视觉输入,AdaThinkDrive的性能仍与多模态方法GoalFlow相当,进一步验证了其自适应推理机制的有效性,以及在复杂驾驶场景中的强泛化能力。此外,在“N选优规划”(best-of-N planning)策略下,本文利用Navsim参考轨迹评估器从4个生成候选轨迹中筛选最优轨迹,最终PDMS达到93.0,创下该基准测试的最高得分。

自适应思考的定量评估

本文首先将AdaThinkDrive与以下两类模型进行对比(结果见表II):

  • 思考/非思考SFT模型(Think/Non-Think SFT):仅训练为“始终生成CoT”或“永不生成CoT”的SFT模型;

  • 思考/非思考RL模型(Think/Non-Think RL):在对应思考/非思考SFT模型基础上微调得到的RL模型。

对比结果显示,AdaThinkDrive的整体性能最优,其PDMS比非思考RL模型高2.0分,比思考RL模型高1.4分。如表IV所示,在1级(简单)场景中,AdaThinkDrive的PDMS比非思考RL模型高2.2分;在3级(复杂)场景中,其PDMS比思考RL模型高2.0分。这一结果充分体现了AdaThinkDrive的核心优势:在简单场景中跳过冗余推理以提升效率,在复杂场景中利用结构化推理提高准确性,实现了两种策略的优势融合。

对不同场景复杂度的行为分析(图5)进一步验证了这一点:AdaThinkDrive在简单场景中更倾向于选择“非思考”模式,在复杂场景中则逐步增加“思考”模式的使用比例,展现出灵活的动态推理控制能力。此外,表III显示,与非思考RL模型相比,AdaThinkDrive的推理时间仅增加9%,但PDMS提升了2.0分;与思考RL模型相比,其推理时间减少14%,同时保持更高的PDMS。这些结果共同证明,自适应推理能在多样化驾驶场景中实现准确性与效率的平衡。

自适应思考的定性分析

图6展示了AdaThinkDrive与基线模型在简单场景和复杂场景中的定性对比结果。在简单场景中,思考RL模型将远处目标误判为关键目标,导致不必要的推理,最终生成的轨迹偏离可行驶区域;而AdaThinkDrive跳过冗余推理,直接输出平滑、准确的轨迹。在复杂场景中,非思考RL模型未能准确评估与前车的距离,生成的轨迹存在安全风险;而AdaThinkDrive能识别关键目标(如前车),并生成符合安全要求的轨迹。这些案例直观证明,AdaThinkDrive能根据场景复杂度自适应调整推理策略,同时提升驾驶安全性与决策质量。

消融实验

AdaThinkDrive的三阶段训练消融

表V展示了AdaThinkDrive三阶段训练流程(预训练、SFT、RL)的消融实验结果。仅使用NAVSIM轨迹数据进行SFT时,模型PDMS为86.2;加入大规模驾驶问答数据集预训练后,PDMS提升至87.5,增幅1.3分;进一步引入自适应思考强化学习与本文提出的自适应思考奖励后,PDMS达到90.3,增幅2.8分。这一结果表明,预训练能提升模型的驾驶知识储备,而自适应强化学习策略则是增强模型推理与决策能力的关键,二者共同保障了AdaThinkDrive的高性能。

奖励设计的有效性对比

表VI展示了不同奖励组合对PDMS的影响。仅使用基础PDMS奖励与格式奖励时,模型PDMS为88.1;加入端点奖励后,PDMS小幅提升至89.1;进一步加入自适应思考奖励后,PDMS达到90.3。这一结果表明,自适应思考奖励是提升规划效率与准确性的核心组件,能有效增强模型在多样化场景中的决策能力。

五、结论

本文认为,在简单场景中进行推理往往会增加计算开销,却无法提升决策质量。为解决这一问题,本文提出了AdaThinkDrive——一种视觉-语言-动作(VLA)框架,能让智能体自适应学习“何时需要思考”。本文的核心贡献是提出了以“自适应思考奖励”为指导的强化学习框架,该框架能使模型的推理行为与场景复杂度相匹配。

在NAVSIM基准测试上的实验结果表明,AdaThinkDrive实现了当前最优(SOTA)性能。这些发现充分证明,自适应思考对于自动驾驶系统实现准确且高效的决策至关重要

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值