点击下方卡片,关注“自动驾驶之心”公众号
>>自动驾驶前沿信息获取→自动驾驶之心知识星球
论文作者 | Hongbin Lin等
编辑 | 自动驾驶之心
港中文联合小鹏最新的一篇工作,很有意思。基于潜在思维链世界模型增强端到端的能力,有一些值得业内尝试的改进点:
自动思考开关:判断当前场景是否需要Reasoning以生成更高质量的轨迹,适合复杂场景优化;
思考模式:基于潜在世界模型生成未来场景表征,进一步利用总结网络(Summarizer Network)优化生成轨迹;
即时模式:适合简单场景,直接利用总结网络输出自车轨迹;
这和前一段时间港中文提出的AdaDrive有异曲同工之处。这折射出一个观点:思维链是必须的,但何时使用思维链推理需要仔细设计。
在自动驾驶领域,端到端规划器从原始传感器数据中学习场景表征,并利用这些表征生成运动规划或控制指令。然而,仅依赖当前场景进行运动规划,在高度动态的交通环境中可能导致次优响应——在这类环境中,自车行为会进一步改变未来场景。为了建模未来场景的演变过程,我们借助世界模型(World Model)来表征自车与其环境随时间的相互作用及变化,这一过程涉及复杂的推理。思维链通过预测一系列未来思考,进而指导轨迹优化,为解决该问题提供了一种极具潜力的方案。本文提出FutureX,一种思维链驱动的流水线框架,通过未来场景潜在推理与轨迹优化,增强端到端规划器的复杂运动规划能力。具体而言,自动思考开关会分析当前场景,判断是否需要额外推理以生成更高质量的运动规划。当FutureX进入思考模式时,潜在世界模型会执行思维链引导的滚动预测,生成未来场景表征,进而让总结网络对运动规划进行优化;否则,FutureX将以即时模式(Instant mode)运行,通过前向传播快速生成运动规划,适用于相对简单的场景。大量实验表明,FutureX在不影响效率的前提下,能增强现有方法的性能,生成更合理的运动规划,减少碰撞事故,实现整体性能的显著提升——例如,在NAVSIM数据集上,FutureX使TransFuser的预测驾驶员模型得分(PDMS)提升了6.2。
一、背景回顾
端到端(E2E)自动驾驶指的是通过完全可微分的映射,直接将多模态原始传感器数据流转换为运动规划或底层驱动指令的技术流水线。该领域在算法方案和基准测试两方面均取得了快速发展。尽管面临固有挑战,现有方法仍实现了显著进步。
在这些成功背后,现有端到端自动驾驶系统通过单一神经网络直接将传感器输入映射为控制输出,执行高效的一次性前向预测,而无需进一步“思考”。这导致它们在复杂环境中缺乏适应性和可解释性(图1第二行)。在人类认知中,驾驶员在执行任何操作前,都会在脑海中模拟可能的未来场景:预测周围车辆的运动趋势、场景的演变方向,以及每种可能行为的潜在结果(图1第一行)。这种内在推理能力使人类能够做出安全且贴合场景的决策。因此,对于端到端系统而言,在高度动态的交通环境中推断未来场景至关重要。
ChatGPT5、Qwen3等先进大型语言模型通过思维链(CoT)机制展现出强大的推理能力。受此启发,近期自动驾驶领域的相关研究尝试将思维链风格的推理融入规划与决策过程。然而,这些方法主要在文本领域运作,生成的语言解释或高层逻辑依据与实际控制过程脱节——它们的“思考”仅以文字形式存在,并未转化为实际动作。因此,这类思维链更多起到描述性注释的作用,而非提升规划质量或安全性的功能性推理机制。这一差距引发了一个新问题:如何使思维链推理具备可执行性,并嵌入决策过程本身?为解决该问题,我们从状态演变与动作选择的视角重新诠释思维链。我们认为,思维链的核心并非文本形式,而在于其逐步展开未来、推理后续事件及对应行动的能力。为此,我们提出潜在思维链推理(latent CoT reasoning):每个推理步骤对应潜在世界模型的一次前向滚动预测,随后进行内部策略评估。这一设计在推理(思考)与规划(动作)之间建立了可微分、可学习的接口。
基于上述洞察,我们提出FutureX——一种将思维链推理融入潜在世界模型的新型端到端驾驶框架。具体而言,FutureX执行迭代的“思考-模拟-行动”(think-simulate-act)循环,使模型在执行运动规划前能对假设的未来场景进行推理。FutureX首先引入自动思考开关(Auto-think Switch),灵感源自ChatGPT5的自动推理触发机制,该开关通过评估当前场景的规划难度,决定是否激活世界模型,进而输出“思考”或“即时”信号。随后,基于潜在世界模型,在潜在场景特征空间内直接执行潜在思维链推理,实现对捕捉环境动态的丰富时空表征的推理。最终,总结器网络(Summarizer Network)结合未来表征与初始运动规划预测偏移量,使策略网络能够基于额外的未来信息进行规划,而非仅依赖当前场景。在具有挑战性的自动驾驶基准测试(如NAVSIM)上的实验表明,FutureX相较于强大的端到端基线模型,显著提升了性能。
本文的贡献主要体现在三个方面:
1)概念层面:将端到端自动驾驶中的思维链重新定义为潜在未来推理——即可学习的世界模型-策略循环内的显式状态演变与动作选择;
2)方法层面:提出FutureX,首个配备自动思考开关的思维链驱动潜在世界模型,能在不确定性场景下选择性激活推理,实现性能与效率的平衡,满足实时部署需求;
3)实证层面:即使基于传统骨干网络(如LTF和TransFuser),FutureX在纯视觉和视觉-激光雷达(camera-LiDAR)两种设置下均达到当前最优性能,验证了所提方法的有效性与广泛适用性。
二、预备知识
潜在世界模型
世界模型(World Model)旨在从原始感官输入中学习环境动态的紧凑预测模型,捕捉不同动作作用下世界随时间的演变规律。借助世界模型,智能体在执行实际动作前可模拟更多可能的未来状态,从而实现基于想象的规划。本文中,我们将潜在世界模型定义为一个可微分的转移函数,其在抽象现实世界的潜在特征空间内,对环境的时间演变过程进行建模。该模型并非在原始观测空间中运作,而是通过结构化的潜在状态来表征复杂的场景动态,能够高效、可微分地模拟基于自车动作的未来状态。
思维链
给定初始输入和期望输出,思维链(CoT)推理通过引入一系列中间步骤(即“思考”,thoughts)来提升复杂问题的求解能力。思维链通常以自然语言解释的形式实现,可视为连接输入与最终答案的逐步过程。然而,若构建一系列能将当前状态逐步转化为期望结果的操作或路径点,这些“思考”也可在动作空间中实例化。例如,底层控制指令可根据动态环境和自车意图生成,如“为行人减速→保持车道直至通过人行横道→左转变道”。这正是我们为自动驾驶引入潜在思维链推理的核心原因——每个推理步骤均通过潜在世界模型的前向滚动预测(forward rollout)模拟动态环境,并通过内部策略评估实现自车在预测未来中的意图。
三、思维链驱动的端到端自动驾驶
初始轨迹生成
不失一般性,我们定义流水线 ,其包含一个场景编码器,用于从输入 中提取场景潜在特征 。随后,策略网络 基于当前潜在特征 预测完整的自车轨迹:
其中,每个路径点 定义于时刻 的自车坐标系, 和 表示空间坐标, 表示航向角。整个轨迹描述了自车在 步时域内的预期运动规划。
潜在思维链推理(Latent Chain-of-Thought Reasoning)
如图2底部所示,潜在世界模型执行思维链引导的滚动预测,基于当前潜在特征和初始轨迹推理未来场景的潜在特征。
思维链段构建
为实现结构化推理,将轨迹 均匀划分为 个子轨迹:
其中, 的固定长度为 ,每个段代表一个用于单步推理的短期局部规划。
思维链引导的潜在世界模型rollout预测
从当前潜在状态 出发,潜在世界模型 执行段级“假设分析”(what-if)模拟,建模执行该子轨迹时场景在潜在空间中的演变过程。其形式化定义为:
其中, 输出更新后的潜在特征 ,表征执行该子轨迹后的想象潜在状态。此过程生成一系列具备未来感知的潜在状态:
这些状态共同构成潜在推理链——即自车规划作用下环境演变的逐步内部模拟。因此,每个推理步骤对应对未来某一段场景的“思考”。
在实现中, 由堆叠的Transformer层构成。首先将 和 融合形成输入序列:轨迹编码器 将 编码为与 特征维度匹配的紧凑嵌入 ,随后将 与 沿序列维度拼接,得到Transformer层的最终输入序列。通过多头自注意力机制,模型融合轨迹条件动态信息和时空上下文,生成更新后的潜在状态 。
基于思考的轨迹优化
生成内部推理链 与初始轨迹 后,FutureX执行推理总结步骤,这与大型语言模型(LLMs)将中间思考整合为最终答案的过程类似。
如图2所示,总结器网络 以 和 为输入,预测优化后的轨迹:
其中, 为优化后的轨迹,作为最终动作输出。
具体而言, 基于预测的内部推理链 ,预测初始轨迹 的偏移量,使策略网络能够基于额外的未来潜在特征进行规划,而非仅依赖当前潜在特征 。例如,在两侧停放车辆的车道上,思维链风格的推理可帮助模型预判未来可能从车辆间隙冲出的行人,从而保持更保守的行驶速度。
该总结过程生成最终的思维链感知规划,确保所有内部“思考”被连贯地提炼为统一、与未来场景一致的驾驶轨迹。
自动思考开关
自动思考开关 对原始传感器输入提取的当前场景潜在特征 进行评估,通过估计场景难度决定是否激活潜在世界模型 ,并输出“思考”或“即时”信号(如图2顶部所示)。
具体来说,场景编码器将原始传感器输入 映射为统一表征 。基于 ,自动思考开关 在时刻 输出标量的运动规划难度分数 :
对于 的标签,首先计算初始轨迹 和优化轨迹 相对于真实轨迹 的 损失:
随后,通过 误差的相对降低量衡量优化增益,并推导开关的二元监督信号。定义改进率 和思考标志 的计算方式为:
其中, 确保数值稳定性, 表示指示函数, 为预定义阈值,用于调节思考模式的灵敏度。
思维链中的监督机制
为实现FutureX的端到端训练,我们同时对外部轨迹预测和内部推理过程进行监督。具体定义三个损失项:1)轨迹规划损失,使优化后的轨迹与人类专家轨迹对齐;2)潜在一致性损失,监督思维链潜在世界模型;3)开关监督损失,指导自动思考开关何时调用潜在推理。
Latent一致性损失
为优化 ,我们尝试将预测的未来潜在特征 与场景编码器从对应传感器输入 中提取的真实未来潜在特征 对齐。因此,潜在一致性损失 计算如下:
轨迹损失
由于FutureX的轨迹输出依赖自动思考开关 通过式(8)得到的思考标志 ,最终轨迹损失 计算为:
该损失使FutureX能够通过额外的潜在推理处理复杂规划任务,同时在相对简单的场景中保持快速响应。
自动思考损失
基于式(6)的规划难度分数 和式(8)的思考标志 ,采用交叉熵计算思考损失 :
综上,FutureX的训练目标函数为:
其中, 和 为超参数。训练过程的伪代码总结于算法1。
实验结果
五、结论
本文提出一种将思维链推理融入潜在世界模型的端到端驾驶框架FutureX。该方法通过执行迭代的“思考-模拟-行动”循环,在执行动作前对假设未来场景进行推理。具体而言,潜在世界模型基于丰富的场景表征进行潜在思维链推理,捕捉环境动态;随后,FutureX执行推理总结步骤——类似大型语言模型将中间思考整合为最终答案的过程,生成最终的思维链感知规划。为满足实际部署需求,自动思考开关决定是否激活潜在世界模型,实现性能与时间开销的平衡。在NAVSIM和CARLA数据集上的实验表明,FutureX在增强纯视觉和多模态端到端自动驾驶系统的性能方面具有有效性和适用性。
自动驾驶之心
自动驾驶之心企业培训咨询!

端到端与VLA自动驾驶小班课!

1324

被折叠的 条评论
为什么被折叠?



