港中文中稿ICCV‘25的自驾自适应快慢双系工作统AdaDrive

原创于 2025-11-12 08:02:24 发布 · 939 阅读

15 ·

CC 4.0 BY-SA版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Ruifei Zhang等

编辑 | 自动驾驶之心

将大语言模型有效融入自动驾驶系统，需要在发挥其高级推理能力与保障实时性之间取得平衡。现有方法要么过于频繁地激活LLMs，导致计算开销过大；要么采用固定调度方式，无法适应动态变化的驾驶场景。

为解决这些挑战，香港中文大学（深圳）和中山大学等团队的研究人员联合提出AdaDrive——一种自适应协作快慢框架，能以最优方式决定LLM何时以及如何为决策过程提供支持。其一，关于LLM的激活时机：AdaDrive设计了一种新颖的自适应激活损失，通过对比学习机制动态判断是否调用LLM，确保仅在复杂或关键场景下激活。其二，关于LLM辅助的融合方式：不同于刚性的二元激活，AdaDrive引入自适应融合策略，根据场景复杂度与预测置信度，对LLM的影响进行连续的强度调节，实现与传统规划器的无缝协作。

PS. 下周一我们邀请到学术界和工业界的专家学者共同探讨自动驾驶世界模型和VLA的路线之争！感兴趣的同学记得点击预约~

通过这些策略，AdaDrive构建了一个灵活、上下文感知的框架，在不影响实时性能的前提下最大化决策准确率。在语言引导的自动驾驶基准测试中，大量实验表明，AdaDrive在驾驶准确率与计算效率两方面均达到SOTA。

论文标题：AdaDrive: Self-Adaptive Slow-Fast System for Language-Grounded Autonomous Driving
论文链接：https://arxiv.org/abs/2511.06253
项目主页：https://github.com/ReaFly/AdaDrive

一、背景回顾

自动驾驶长期以来都是学术界和工业界的研究热点。随着大语言模型（LLMs）及其多模态扩展模型（MLLMs）的出现，研究人员开始将LLMs融入自动驾驶系统，以提升其认知推理与决策能力。早期方法如LMDrive和AD-H，采用同步且高度耦合的串行架构，LLM与规划器在每个驾驶步骤中均会参与运作（见图1）。这些模型虽提升了驾驶智能性，但引入了巨大的内存开销与延迟，使得实时部署面临挑战，尤其在高速、动态的驾驶环境中。

为解决这一问题，后续研究探索了异步策略，通过预先设定的间隔激活LLM，以平衡性能与效率。然而，固定调度极大限制了模型的适应性——不同驾驶场景对LLM干预的需求差异显著。例如，在安全关键场景中，LLM可能在最需要时未被激活；而在简单场景中，激活LLM则显得多余，导致资源利用不佳。

基于这些局限，一个理想的LLM增强型自动驾驶框架应具备以下能力：

1）动态决定LLM的激活时机，确保其仅在能发挥作用的场景中参与，同时避免不必要的计算开销；
2）自适应控制LLM的影响程度——本文的核心发现是，尽管LLM的参与通常能提升性能，但相比二元开关式的全权重激活（如权重1.0），采用较低自适应权重的连续融合方式（如权重0.7）往往效果更优。

为应对这些挑战，本文提出AdaDrive——下一代自适应LLM融合自动驾驶框架。该框架采用快慢系统范式，平衡两类任务：一类是高频低延迟任务（不调用LLM的轻量级规划器，称为快速路径），另一类是低频高推理任务（激活LLM作为认知智能体，称为慢速路径）。

本文通过两项关键创新对该快慢框架进行优化，实现决策准确率与计算效率的最优平衡：1）自适应LLM激活：不再依赖固定激活间隔，AdaDrive通过新颖的自适应激活损失，动态学习LLM的激活时机。在训练过程中，通过对比LLM辅助与无LLM辅助的预测结果，模型能自动识别高风险或复杂场景，实现真正的按需激活；2）动态LLM贡献度调节：不同于以往将LLM激活视为二元决策的方法，AdaDrive引入置信度驱动的融合策略，动态调整LLM的参与权重。核心洞察是，尽管LLM辅助通常能提升性能，但全有或全无的二元激活并非最优——对LLM贡献度进行自适应调节，往往比极端化的方式效果更好。

为此，AdaDrive根据LLM输出的置信度与场景复杂度，调节其影响强度，确保其贡献与传统规划模块达到最优平衡。

此外，本文提出Long-Short Q-former，通过融合短期精准特征与长期上下文信息增强视觉建模能力，确保流式自动驾驶场景下轨迹预测的一致性。同时，引入传播式记忆融合（PMF）机制，将被淘汰的帧特征合并到相邻帧中，在保持紧凑表示的同时保留关键历史上下文，进一步优化内存效率。实验结果表明，AdaDrive在语言引导的自动驾驶领域达到了新的SOTA。

本文的贡献总结如下：

提出AdaDrive，首个用于LLM增强自动驾驶的自适应快慢架构，能基于实时驾驶上下文动态激活LLM；
一种新的自适应融合机制，自动学习LLM的最优激活时机（以最大化性能增益并最小化计算开销），并根据模型置信度与场景复杂度决定LLM的贡献程度；
开发LS-Qformer与PMF机制，分别用于增强时序特征聚合能力和通过高效内存保留关键历史上下文；
在标准语言引导自动驾驶基准测试中，在准确率与计算效率两方面均取得最先进性能。

二、AdaDrive算法详解

概述

问题定义

给定流式视频片段序列及对应的导航指令（其中为当前时间戳），本研究旨在构建高效的自动驾驶系统，生成遵循指令的轨迹预测结果：其中，表示时间戳的预测路径点，后续将通过PID控制器转换为横向转向和纵向加速度指令。

系统架构

如图2所示，与传统将指令理解和轨迹预测糅杂在大语言模型中的设计不同，本文提出的AdaDrive将这两个过程解耦，以不同的激活频率并行运行。轻量级规划器作为低层轨迹预测器，对每帧图像进行高频处理（快速路径）；而大语言模型作为核心认知单元，以低频激活方式在关键场景下为规划器提供必要辅助（慢速路径）。两条路径通过本文提出的Connector-W和Connector-H组件实现自适应整合，分别负责决定大语言模型的激活时机以及其对轨迹预测的贡献程度。

快慢系统

多模态特征提取

给定流式视频片段序列（每帧数据包含多视角相机图像和点云数据），我们采用预训练视觉编码器提取并融合每帧的多模态视觉特征：，进而构建特征序列。后续的长短时Q转换器（LS-Qformer）将进一步聚合特征令牌，同时考虑长时信息和当前帧信息，得到（其中，为令牌数量，为特征维度）。

快速路径：轨迹预测

轻量级规划器以高频激活方式处理每个时间戳，仅依赖当前帧信息生成路径点：。

慢速路径：逻辑推理

与规划器不同，我们允许大语言模型访问长时上下文信息，以充分发挥其指令理解和推理能力。为避免内存占用和计算复杂度无界增长，使其适用于流式场景，我们基于构建流式内存缓冲区，用于管理输入大语言模型的特征。该特征缓冲区容量固定为，存储的特征表示为。随后，大语言模型处理帧上下文信息，输出当前时间戳的整合特征，公式如下：

自适应连接器

我们的框架通过两个专用连接器（Connector-W和Connector-H）的自适应调度增强快慢系统架构，协调大语言模型与规划器的交互。具体而言，Connector-W决定大语言模型的自适应激活时机，而Connector-H控制大语言模型贡献的动态缩放。

Connector-W

给定LS-Qformer提取的当前驾驶上下文特征，我们通过多层感知机（MLP）预测置信度分数，用于决定大语言模型的激活：通过Gumbel-Softmax重参数化，将连续概率分布转换为离散二值决策，确保端到端可微性并保持梯度流动：

然而，由于缺乏最优激活时机的金标准或真实监督信号，的优化面临重大挑战。为此，我们提出一种基于对比学习的自适应激活损失来解决这些问题。

具体而言，在训练阶段，我们进行两次轨迹预测前向传播：一次借助大语言模型辅助，得到；另一次不使用大语言模型，得到。随后，分别计算两者的轨迹损失（L1损失），记为和。在预热阶段后，两种损失收敛至稳定值，它们的差异反映了当前时间步大语言模型对轨迹预测的贡献程度。因此，我们将二值决策与轨迹损失关联，构建新型自适应激活损失：

优化该目标函数自然会在时使，否则为0，从而让模型学习最优的大语言模型激活条件。此外，为在最小化计算开销的同时实现最优性能提升，我们在大语言模型辅助的轨迹损失中引入惩罚项，以控制大语言模型的激活频率，确保仅当显著低于且差值超过预设阈值时才激活大语言模型：

Connector-H

通过提出的自适应激活损失，模型（Connector-W）学会了确定最优的大语言模型激活时机。然而，二值融合（全有或全无）可能并非与传统规划器无缝整合的最优策略。为实现大语言模型贡献的动态缩放，Connector-H利用预测的置信度分数作为加权特征整合的融合系数，生成第三种轨迹预测结果。的轨迹损失会自然引导模型学习最优的贡献缩放比例。

推理阶段

Connector-W预测大语言模型激活的置信度分数和对应的二值决策。当大语言模型激活时，Connector-H利用预测置信度作为动态加权系数，调节大语言模型特征对基础特征的贡献。具体而言，轨迹预测可统一表示为：

长短时特征建模

作为连接视觉编码器和大语言模型的常用组件，Q转换器已应用于许多多模态大语言模型中。vanilla Q-former可表示为：

其中是用于特征聚合的额外可学习令牌。然而，该模块单独处理每帧图像，忽略了长时时序信息。为解决这一问题，我们提出长短时Q转换器（LS-Qformer）。受分组机制启发，我们将可学习令牌分为两组，记为和：传递到下一帧以聚合长时信息，而与标准Q转换器类似，专注于当前帧信息。公式如下：

通过这一机制，LS-Qformer同时从当前帧提取关键特征并建模时序特征演变，得到更丰富的视觉表示。

流式内存缓冲区

长时上下文信息对于预测目标的潜在行为和轨迹至关重要，进而实现更安全的自动驾驶。然而，存储和处理连续流式数据不可避免地会导致计算开销呈指数增长，并可能引发内存溢出。为解决这些挑战，我们提出一种固定大小的流式内存缓冲区，结合传播式内存融合（PMF）策略管理历史驾驶数据。与仅保留固定长度特征的先进先出（FIFO）机制不同，我们的PMF机制通过将待淘汰帧的特征合并到其前一帧中保存信息，在维持紧凑缓冲区的同时实现信息的前向传播，公式如下：

随后，内存缓冲区更新为，其中表示融合后的特征。

三、实验

实验设置

数据集：本文在标准LangAuto数据集上训练AdaDrive，该数据集是一个综合多模态数据集，包含64K条指令跟随序列。每个序列都封装了同步的多视角相机图像和激光雷达点云，为自主导航提供丰富的时空上下文信息。

基准测试与指标：本文在CARLA仿真环境中进行闭环自主驾驶评估，该基准测试根据驾驶距离分为三个不同子任务：LangAuto-Tiny、LangAuto-Short和LangAuto。路线完成率（RC）、违规分数（IS）和驾驶分数（DS）是三种广泛采用的评估指标。具体来说，RC表示智能体成功行驶距离与计划总路线长度的比值；IS通过几何级数汇总多种交通违规类别，初始值为1.0，每次发生违规时会乘法衰减；DS通过将路线完成率和违规惩罚相乘得到，是主要评估标准，可全面评估自主驾驶性能。

模型配置：本文的框架采用预训练视觉编码器，训练过程中保持冻结状态。在语言建模方面，本文采用轻量级语言模型TinyLLaMA以降低计算开销和参数数量。规划器采用4层Transformer架构。本文在LS-Qformer中设置20个可学习令牌和20个内存令牌，并将流式内存缓冲区的容量k设为10。

实现细节：本文使用AdamW优化器和余弦学习率调度器。初始学习率设置为1×10⁻⁵，训练周期为15个epoch。在损失函数中，本文将超参数边际d设为0.3以约束LLM的激活。

主要结果

闭环驾驶性能：本文在LangAuto基准测试上开展了全面实验以评估所提方法，并与现有先进方法进行对比。实验结果如表1和表2所示。本文提出的AdaDrive在所有基于距离的子任务中均表现出卓越性能，尤其在短距离路线场景中表现突出。具体而言，AdaDrive在LangAuto-Tiny和LangAuto-Short基准测试上的驾驶分数分别达到80.9%和70.6%，大幅超越排名第二的方法，优势分别为12.9%和16.3%。这些结果验证了本文自适应快慢驾驶系统的有效性。

推理时间与内存成本：除了提升驾驶性能外，本文的方法在推理时间和计算开销方面也具有显著优势，如表2所示。这些优势源于两个关键架构设计：1）自适应快慢系统。与采用顺序处理、需要LLM在每个时间步进行推理的方法不同，本文的并行架构主要依赖轻量级规划器，仅在系统自适应调度判定的紧急情况下才激活LLM。

此外，规划器只需处理当前帧特征，因为历史信息已通过LS-Qformer传播，这些架构设计显著降低了系统的推理延迟。2）定制化流式内存缓冲区。现有方法缺乏对流式输入的专门处理，导致数据累积和内存开销增加。相比之下，本文明确提出流式内存缓冲区架构，可高效管理输入数据，在降低内存成本的同时提升推理速度。

消融实验

组件有效性：本文开展了全面的消融实验，以验证所提LS-Qformer的有效性，并量化通过连接器驱动的LLM交互所带来的性能提升。首先，本文以基准模型为起点，该模型采用独立聚合帧级特征的标准Qformer和用于轨迹预测的规划器。实验结果如表3所示。将标准Qformer替换为本文提出的LS-Qformer后，性能得到显著提升，这表明LS-Qformer能有效捕捉历史信息中的时间依赖性，助力做出更合理的规划决策。

此外，本文通过连接器架构将LLM集成到系统中。利用Connector-W主导的动态LLM激活机制，本文的方法实现了显著的性能提升，驾驶分数达到77.9%。而且，通过将传统的LLM特征全权重融合替换为本文创新的Connector-H控制动态LLM贡献缩放策略，整体DS性能指标进一步提升。

LS-Qformer分析：本文将LS-Qformer与多种架构变体进行对比：1）标准Qformer，以帧为单位独立处理每个帧；2）SeqQ-Former，将当前输出令牌作为后续帧特征提取的查询；3）带时间累积的Qformer，通过将前一帧的令牌表示与当前帧特征相加融合来整合历史上下文。表4的结果表明，本文的LS-Qformer通过分组机制巧妙地将长程历史信息与当前帧内容相结合，实现了最优的驾驶分数。

流式内存缓冲区分析：本文研究了不同内存库容量和内容更新机制对轨迹预测的影响，如图5(a)所示。得出以下关键结论：1）得益于本文LS-Qformer的有效上下文聚合，即使LLM仅关注当前帧（无SMB），本文的方法也能实现相当的性能；2）较小的内存库容量对轨迹预测更有利，本文推测随着内存内容的增加，LLM的指令感知能力会在扩展的上下文中被稀释；3）当达到容量限制时完全清空当前缓冲区的硬更新机制，会导致后续轨迹预测出现固有不稳定性。

相比之下，PMF机制在保持时间连贯性的同时保留了更多上下文信息，从而实现更优性能。

自适应协作分析：本文将自适应LLM激活策略与不同频率的固定间隔激活进行对比。如图5(b)所示，更高的激活频率总能带来更稳定、更稳健的驾驶性能。本文的自适应LLM激活机制能够动态响应关键场景，实现与连续LLM激活相当的性能，同时平均激活频率仅为0.28。图5(c)进一步表明，本文的方法在驾驶性能和计算效率之间实现了最优平衡，与连续激活相比，GFLOPs降低了62%，同时与相近频率的固定间隔方案相比，驾驶分数提升了5.6%。

此外，本文分析了LLM在LangAuto-Short和LangAuto基准测试所有路线上的激活频率分布，如图6所示。激活频率范围在0.1到0.5之间，表现出有效的稀疏性和动态适应性，平均激活率分别为0.28和0.33。值得注意的是，在复杂路线（如密集城市街道、夜间环境或山路）中观察到更高的激活频率，这验证了本文针对复杂场景自适应启用LLM的设计原则。

此外，通过分析单个路线内LLM激活的时间分布，本文发现LLM在关键驾驶步骤中的激活频率会增加。如图7所示，LLM激活主要集中在复杂场景中，包括方向转换和路口导航。在这些情况下，LLM先进的逻辑推理能力显著提升了自主车辆智能体的决策性能。

四、结论

本研究探索了基于LLM的语言引导自主驾驶技术，重点关注两个核心问题：LLM的最优激活时机和有效利用策略。具体而言，本文的方法采用自适应快慢架构，根据驾驶场景自适应调度LLM激活，同时基于预测置信度分数动态调节其贡献权重。该策略在控制计算开销的同时，显著提升了模型的灵活性和稳健性。

此外，本文引入定制化的LS-Qformer以实现有效的历史上下文聚合，并提出带有传播性内存融合策略的流式内存缓冲区，用于高效管理无界时间数据。大量实验表明，本文的方法在有效性和效率方面均显著优于现有方法，验证了其实际应用潜力。

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com