快慢双系统评测！Bench2ADVLM：专为自动驾驶VLM设计（南洋理工）-优快云博客

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享XX最新的工作！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群加入，也欢迎添加小助理微信AIDriver005

论文作者 | Tianyuan Zhang等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

视觉-语言模型（VLMs）最近已成为自动驾驶（AD）中一个有前景的范式。然而当前对基于VLM的自动驾驶系统（ADVLMs）的性能评估协议主要局限于具有静态输入的开环设置，忽略了更具现实性和信息性的闭环设置，后者能够捕捉交互行为、反馈弹性和真实世界的安全性。为了解决这一问题，我们引入了BENCH2ADVLM，这是一个统一的分层闭环评估框架，用于在仿真和物理平台上对ADVLMs进行实时、交互式评估。受认知的双过程理论启发，我们首先通过双系统适应架构将多种ADVLMs适配到仿真环境中。在此设计中，由目标ADVLMs（快速系统）生成的异构高级驾驶命令被通用VLM（慢速系统）解释为适合在仿真中执行的标准化中级控制动作。为了弥合仿真与现实之间的差距，我们设计了一个物理控制抽象层，将这些中级动作转换为低级执行信号，首次实现了在物理车辆上对ADVLMs的闭环测试。为了实现更全面的评估，BENCH2ADVLM引入了一个自我反思的场景生成模块，该模块自动探索模型行为并发现潜在的故障模式，以生成安全关键的场景。总体而言，BENCH2ADVLM建立了一个分层评估流水线，无缝集成了高级抽象推理、中级仿真动作和低级真实世界执行。在多个最先进的ADVLMs和物理平台上进行的多样化场景实验验证了我们框架的诊断能力，揭示了现有ADVLMs在闭环条件下的性能仍然有限。据我们所知，这是首次建立ADVLMs的闭环评估基准，为ADVLMs的可扩展、可靠部署提供了一条原则性路径。

论文链接：https://arxiv.org/abs/2508.02028

简介

随着深度学习的快速发展，自动驾驶（AD）技术已从模块化流水线发展到端到端系统，最近更是发展到视觉-语言模型（VLMs）。由于其强大的泛化能力和增强的可解释性，VLMs已成为当代自动驾驶研究中一个有前景的范式。

尽管前景广阔，但基于VLM的自动驾驶系统（ADVLMs）的评估仍受到严重限制，因为它们主要集中在开环设置上，其中模型输出不会在仿真环境中反馈给AD系统，导致静态输入无法反映模型行为的后果。然而，更可靠且更困难的闭环评估尚未被探索，这种评估通过持续将输出纳入未来输入，实现与环境的动态和实时反馈。与开环评估相比，闭环测试可以有效缓解由错误预测积累引起的分布偏移和级联错误等问题，这有助于揭示AD系统更多的缺陷。

当前ADVLMs在闭环评估中的一个根本挑战在于它们无法直接与物理环境互动。与传统的端到端驾驶模型相比，ADVLMs在较高层次的抽象上运行，生成语义驾驶命令而不是可执行的控制信号。这种架构上的断开阻止了与执行系统的直接接口，需要一个额外的解释层来将抽象决策转化为控制信号。因此，闭环反馈循环被中断，限制了基于仿真和现实世界评估的保真度和有效性。此外，现有研究主要集中在虚拟环境上，对物理世界验证的努力有限。物理部署在很大程度上未被探索，即使小规模的真实车辆测试也很少进行，尽管这对于评估现实世界的可靠性和安全性是必要的。

为了解决这一问题，我们提出了BENCH2ADVLM，这是一个统一的闭环框架，用于在虚拟和物理环境中对ADVLMs进行实时和交互式评估。受心理学中快速和慢速认知的双系统理论启发，BENCH2ADVLM采用了一种双系统适应架构，模拟“快系统”和“慢系统”的角色。快系统（即正在评估的目标ADVLMs）生成高层驾驶命令，而慢系统（即通用VLMs）充当语义执行器，将这些命令转化为可在仿真环境中执行的中层控制动作。此外，我们建立了一个物理控制抽象层，将中层控制动作映射到低层现实世界执行信号，首次实现了在物理车辆上对ADVLMs的闭环测试。总之，BENCH2ADVLM提供了第一个统一的测试平台，分层连接基于语言的抽象推理与仿真控制和物理执行，实现了AD评估所有层面的闭环。此外，为了支持对目标模型的定制化评估，BENCH2ADVLM结合了基于Bench2Drive提供的路线的自反性场景生成模块，自主生成220个威胁场景，使ADVLMs能够暴露在更广泛的对抗性、长尾和安全关键条件下。最后，我们讨论了基于我们的见解设计先进ADVLMs的潜在方向。我们将持续为社区开发这一生态系统。主要贡献如下：

双系统适应架构。我们提出了一种受快速和慢速认知启发的双系统适应架构，其中目标ADVLMs生成高层驾驶命令，通用VLMs将其转化为中层控制动作，实现在仿真器中对ADVLMs的闭环测试。
物理控制抽象层。我们构建了一个物理控制抽象层，将中层控制动作映射到现实世界的执行信号，实现对物理车辆上ADVLMs的闭环测试。
自反性场景生成。我们引入了一个自反性场景生成模块，基于220条标准路线，自主创建220个安全关键场景，实现更广泛和有针对性的评估。

Bench2ADVLM 设计

BENCH2ADVLM 是一个用于对 ADVLMs 进行实时和交互式评估的统一闭环评估框架。BENCH2ADVLM 的框架如图 1 所示。

双系统适应架构

受心理学中认知的双系统理论的启发，我们设计了一种双系统适应架构，模拟快速和慢速认知过程之间的交互。

在我们的框架中，快系统对应于目标 ADVLMs，负责根据视觉-语言输入生成高层、目标导向的驾驶命令。慢系统，使用通用视觉-语言模型（GVLMs）实现，充当语义执行器，将这些高层驾驶命令转换为可执行的中层控制动作。

我们首先介绍快系统，它对应于目标 ADVLMs。不同 ADVLMs 的输出表现出显著的异质性，包括结构化命令、轨迹预测和自由形式的文本推理。这种多样性使得应用统一的模式识别方法进行解释变得具有挑战性。为了解决这个问题，我们对输出进行抽象，并利用大模型的泛化能力进行下游处理。给定输入图像序列和特定任务提示集，ADVLMs 生成任务条件的文本输出：

其中是输入图像序列，是任务的提示，是预定义任务集（例如，动作预测、轨迹预测、语义推理）。是共享的推理函数，收集时间的任务特定文本输出。

慢系统充当语义解释器，将异质的高层驾驶命令转换为可执行的中层控制动作。给定快系统生成的文本输出，慢系统弥合了语义意图与物理动作之间的差距。

具体来说，对于每个与动作相关的任务，相应的文本描述被转换为与 CARLA 模拟器接口兼容的控制命令。在自动驾驶控制中，关键的执行信号包括转向、油门和刹车值，对应于车辆的横向和纵向操作。为了将异质的高层驾驶命令转换为可执行的中层控制动作，我们基于 GVLMs 设计了一个语义到控制的转换模块，该模块针对 CARLA 控制协议进行了定制。给定任务特定的文本输出和当前的观测图像序列，慢系统通过以下方式预测控制命令：

其中是预定义的控制提示模板，表示候选控制集。控制向量由三个部分组成：转向命令，油门命令，和刹车命令。这些信号对应于 CARLA 中车辆控制接口的执行原语，其中控制转向角，分别调节加速度和制动强度。

对于视觉-语言模型，原始图像序列直接作为视觉输入与提示一起提供。对于纯语言模型，图像序列首先被编码为文本描述，然后附加到提示模板中的任务特定输出内。

我们在两种操作模式下实例化：1) 连续数值生成（CNG）模式，为空，视觉-语言模型直接回归连续控制值。每个输出分量在 CARLA 的规范范围内进行约束（例如，转向角在，油门和刹车在）。2) 离散分类选择（DCS）模式，被预定义为从领域知识派生的候选控制向量的离散集。视觉-语言模型根据高层驾驶命令选择语义上最一致的候选。在这两种模式下，生成的控制动作被输入到 CARLA 的车辆接口，实现基于高层语义决策的实时执行。提示构造和候选集的细节在附录中提供。

物理控制抽象层

为了在物理世界中实现闭环评估，我们将测试范式从模型在环（MIL）模拟扩展到硬件在环（HIL）部署。具体来说，我们开发了一个物理控制抽象层，将中层控制动作映射到低层真实世界执行信号。在每个控制周期，系统将生成的控制信号传输到物理车辆，车辆执行运动持续 0.5 秒，捕获更新的车载观测，并将其反馈给下一个推理步骤。这在物理环境中形成了一个实时反馈循环，涵盖了感知、决策和执行。

物理控制抽象层在 AGILE·X 模拟沙箱中使用两个自动驾驶平台进行验证：Jetbot和 LIMO。这两个平台都配备了车载传感器，包括摄像头、激光雷达和惯性测量单元（IMU），并能够进行标准运动控制。Jetbot 具有更强的车载计算资源，适合 AI 密集型工作负载，而 LIMO 强调执行稳定性，并支持多种驾驶模式，包括差速、阿克曼、履带和麦克纳姆配置。两个平台都采用 ROS 作为内部通信和控制框架。为了克服边缘设备的计算限制，我们采用客户端-服务器架构。服务器托管视觉-语言规划器和决策到控制的解析模块，而客户端部署在车辆上，负责实时传感器采集和低层执行信号。双方之间的通信通过 SSH 隧道保护的 TCP 套接字建立，确保低延迟和可靠的反馈。

值得注意的是，虽然我们当前的部署是在 Jetbot 和 LIMO 上的 AGILE·X sandbox中进行的，但抽象层的模块化和客户端-服务器分离设计使其能够无缝扩展到更广泛的测试场景，支持从 MIL 到 HIL 设置的可扩展过渡。

自反性场景生成

闭环评估需要一个交互式环境和一系列多样化的安全关键场景，以挑战目标模型。

现有基准测试通常依赖预定义模式或基于规则的扰动来构建测试用例，这可能无法捕捉不同 ADVLMs 的特定脆弱性。这限制了它们支持有针对性、诊断性评估的能力。

为了解决这个问题，我们引入了一种自反性场景生成机制，主动让目标 ADVLMs 参与到以威胁为中心的测试场景的构建中，如图 3 所示。

与被动应用静态模板不同，我们让被测试的模型来阐述它对场景的理解以及它认为对决策至关重要的上下文。

生成过程围绕一个结构化的三阶段推理框架组织，该框架受到自动驾驶中广泛使用的感知-预测-规划（P3）范式的启发。从基本场景开始，系统在三个认知阶段向 ADVLMs 提出查询：1）感知，描述当前正在发生的事情；2）预测，识别影响近期演化的关键因素；3）规划，确定适当的下一步行动。每个回答捕捉了模型内部推理的一个独特方面。由于 ADVLMs 专注于特定任务的输出，它们难以统一跨任务信号。我们通过使用 GVLM 将中间输出融合成一个连贯的威胁场景描述来解决这个问题。生成的描述被传递到一个可控的场景构建管道，并用作实例化模拟环境的提示。基于 Bench2Drive提供的 220 条标准路线，我们使用自反性生成方法生成了相应的一组 220 个威胁关键场景。

实验结果分析

实验设置

模型。作为快系统，我们评估了四种常用的ADVLMs：Dolphins、DriveLM、EM-VLM4AD和OmniDrive。对于慢系统，我们通过使用LLaMA-3-8B和LLaVA-1.5-13B来比较一个大语言模型（LLM）和一个视觉-语言模型（VLM）。解析模式。每个模型在两种解析模式下进行测试，即连续数值生成（CNG）和离散分类选择（DCS），如第3节所述。硬件配置。服务器配备了一个128核的Intel Xeon 8358 CPU（2.60GHz）、1TB内存和8块NVIDIA A800 80GB PCIe GPU。评估指标。我们通过整合CARLA排行榜和Bench2Drive中的指标，构建了一个渐进式评估框架，涵盖了三个维度：基本性能，通过成功率↑（无违规完成的路线百分比）和驾驶分数↑（完成分数加权违规惩罚）来衡量；行为质量，通过效率↑（每5%路线采样的相对速度）和舒适度↑（具有稳定控制信号的平滑20帧段的比例）来评估；以及专门能力，通过平均五个交互技能（车道合并、超车、紧急制动、让行和交通标志识别）的技能分数↑来评估。每个实验重复10次，报告平均结果。

主要结果

表1展示了BENCH2ADVLM上的主要结果，从中我们得出以下见解：

不同ADVLMs之间的比较。所有ADVLMs的整体性能仍然相对较低，表明当前模型仍然面临显著的局限性。OmniDrive在所有指标上始终获得最高分，最高成功率为12.99%，驾驶分数为43.75，技能分数为19.38，表明其在闭环设置中具有更好的鲁棒性和泛化能力。相比之下，DriveLM和Dolphins表现较弱，平均驾驶分数约为39.39，技能分数低于18，反映出其规划可靠性有限。EM-VLM4AD表现具有竞争力，舒适度达到71.16，表明其轻量级设计保留了特定任务的能力。在所有模型中，标准差保持相对较小，通常低于相应指标的5%，表明在多次试验中表现一致且可靠。
不同解析模型之间的比较。LLaMA和LLaVA的侧重点不同，LLaMA的成功率相对较高，而LLaVA的驾驶分数相对较高。例如，在DriveLM使用DCS的情况下，LLaMA的成功率为10.45，驾驶分数为38.79，而LLaVA分别为5.00和42.06。
不同解析模式之间的比较。使用CNG的模型通常获得更高的驾驶分数（43.45 vs. 42.43），如OmniDrive与LLaMA的组合所示，这反映了细粒度控制的优势。另一方面，DCS显著提高了舒适度，特别是对于使用LLaMA的DriveLM（31.95 vs. 65.20）和使用LLaMA的Dolphins（37.85 vs. 43.54），表明在延长轨迹中更好地抑制了不稳定行为。（CNG vs. DCS）。不同模式的详细分析见补充材料。
微观行为分析。在相同的系统配置下（例如，LLaMA-3-8B与DCS），Dolphins的效率（132.58 vs. 107.44）高于DriveLM，尽管其驾驶分数略低（34.32 vs. 38.79）。这表明，尽管DriveLM更注重完成路线，但Dolphins优先考虑更平滑和更稳定的控制。这些结果反映了不同的行为倾向：DriveLM强调最终任务的成功，而Dolphins表现出更精细的控制。可视化和失败分析见补充材料。见解1：ADVLMs缺乏细粒度控制，闭环性能有限，低成功率和驾驶分数突显了与部署准备之间的差距。

威胁场景评估

表2报告了在威胁场景下的结果，部分与主实验的对比可视化如图4所示。

威胁场景下的鲁棒性下降。整体性能趋势与主结果一致，但所有模型均观察到显著的性能下降。例如，Dolphins的成功率从9.09%下降到7.91%（下降1.18%），EM-VLM4AD在CNG模式和LLaMA下从8.18%下降到7.61%（下降0.57%）。平均而言，驾驶分数下降了26.1%，技能分数最多下降了3.59%，尤其是OmniDrive。
通过标准差进行稳定性分析。除了平均性能下降外，我们还检查了多次运行的方差，以评估模型在威胁场景下的稳定性。尽管OmniDrive在清洁条件下所有指标上领先，但在关键指标上的标准差明显增加。其驾驶分数方差从±0.56增加到±0.80，技能分数方差从±0.33增加到±0.47。这表明在对抗性扰动下行为不一致。相比之下，EM-VLM4AD在所有指标上保持了相对较低且稳定的方差。例如，其驾驶分数标准差保持在±0.65到±0.59的紧密范围内，技能分数方差保持在±0.32左右，波动最小。这种一致性凸显了EM-VLM4AD在不确定环境中的鲁棒性和可靠性。
威胁下的任务特定敏感性。威胁场景对所有任务维度的影响并不相同。与平滑度和舒适度相关的指标（如效率和舒适度）倾向于更急剧地下降。例如，OmniDrive的舒适度平均下降了12.16，而其成功率仅下降了约1.44%。类似地，DriveLM和Dolphins在效率和舒适度上的下降不成比例地大于成功率，表明威胁对细粒度行为的影响大于对整体任务成功的影响。

见解2：LLaVA在行为质量指标（如效率）上的下降比LLaMA更温和，而LLaMA在基本性能（如成功率）上表现更好。

真实世界评估

评估策略。为了定量评估真实世界的驾驶性能，我们设计了一种以车道跟随任务为中心的结构化评估策略。驾驶沙箱被划分为十个不同的路线段，每个段落反映了不同的几何和交通复杂性，如图5a所示。对于每条路线，每辆自动驾驶车辆运行三次，我们报告平均结果以确保统计可靠性。主要评估指标是路线完成率，定义为车辆成功穿越计划轨迹的百分比，且不跨越黄色边界线或与障碍物发生碰撞。

结果分析。如表3所示，所有部署的模型都表现出完成基本车道跟随任务的能力。特别是，JetBot平台在所有模型上始终优于LIMO车辆，平均路线完成率达到55.5%，而LIMO为54.5%。这种改进部分源于评估路线的简单性。然而，即使在这些条件下，仍然发生了大量失败，突显了真实世界部署中的持续挑战。

潜在路径

基于上述见解，我们进行了初步实验，以探索推进稳健且实用的ADVLMs的潜在路径。详细信息见补充材料。

细粒度控制。见解1揭示了当前ADVLMs缺乏细粒度控制，表现出显著的局限性。在此，我们旨在使模型输出细粒度的控制信息，以在闭环环境中实现更好的执行。具体来说，我们通过从预定义后缀中选择，使ADVLMs模拟细粒度控制（例如，将“继续直行”扩展为“速度=0.5”）。选择规则见补充材料。我们使用DriveLM与LLaMA，在BENCH2ADVLM的220条标准路线上，成功率从9.09提高到12.52。这表明即使是简单的细粒度控制也能提升性能。更根本的解决方案是构建包含控制信号（例如，历史和当前控制动作）的精确数据集并训练整个模型，这将作为未来工作。

混合模式切换。见解2表明，不同模式在不同任务上表现出不同的优势（LLaMA侧重于基本性能，而LLaVA侧重于行为质量）。为了利用它们的优势，我们提出了一种混合模式切换策略，其中ADVLMs识别高风险场景，并在风险情况下选择LLaVA，否则选择LLaMA。具体来说，我们简单地提示ADVLMs“前方场景是否存在安全威胁？”，并根据其响应（即，是/否对应LLaMA/LLaVA）选择模式。在BENCH2ADVLM的220条标准路线上对DriveLM进行的实验展示了其有效性，同时提高了成功率和效率（LLaMA：9.09，127.55；LLaVA：6.82，129.83；混合：9.23，131.29）。这些结果表明，混合模式切换有效地结合了模型优势，实现了更自适应和更稳健的ADVLMs。

结论与未来工作

本文介绍了BENCH2ADVLM，一个用于ADVLMs闭环评估的统一基准测试。BENCH2ADVLM通过双系统适应架构将高层驾驶命令转换为中层控制动作，实现了动态、实时的交互。统一的控制抽象层进一步将这些中层动作与物理车辆上的低层执行联系起来。BENCH2ADVLM进一步结合了针对威胁场景的自反性场景生成。大量实验验证了其有效性，为未来ADVLMs的研究提供了见解。

局限性：1）真实世界评估缺少商业自动驾驶车辆的复杂性。2）单智能体实验缺乏交互，限制了协调性评估。

伦理声明与更广泛的影响。本研究未使用人类受试者或敏感数据。所有实验均在仿真或受控环境中进行。BENCH2ADVLM旨在用于研究以提高自动驾驶性能，没有可预见的伦理或社会问题。

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com