VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Dr

本文链接：https://blog.youkuaiyun.com/qq_41545537/article/details/145855371

摘要

近年来，基于强化学习（RL）的驾驶政策学习方法在自动驾驶领域得到了越来越多的关注，并在各种驾驶场景中取得了显著的进展。然而，传统的RL方法依赖于人工设计的奖励，这需要大量的人力努力，而且往往缺乏通用性。为了解决这些限制，我们提出了VLM-RL，这是一个统一的框架，它将预先训练过的视觉语言模型（VLMs）与RL集成在一起，利用图像观察和自然语言目标生成奖励信号。VLM-RL的核心是对比语言目标（CLG）作为奖励的范式，它使用积极和消极的语言目标来产生语义奖励。我们进一步介绍了一种分级综合奖励的方法，该方法将基于CLG的语义奖励与车辆状态信息相结合，提高了奖励的稳定性，并提供了更全面的奖励信号。此外，还采用了批处理技术来优化训练过程中的计算效率。在carla模拟器中进行的大量实验表明，VLM-RL优于最先进的基线，实现了10.5%的碰撞率降低，路线完成率增加了104.6%，以及对看不见的驾驶场景的稳健泛化。此外，VLM-RL可以无缝地集成几乎任何标准的RL算法，这可能会彻底改变现有的依赖于手动奖励工程的RL范式，并实现持续的性能改进。演示视频和代码可以在： https://zilin-huang.github.io/VLM-RL-website/.上访问

关键词：自主驾驶、视觉语言模型、强化学习、奖励设计

1 引言

自动驾驶技术近年来取得了重大进展，但实现人类水平的安全和可靠性仍然是一个基本挑战（Feng等人，2023；Huang等人，2024b）。一个特别严峻的挑战是如何针对复杂交通环境制定安全和通用的驾驶政策(Di和石，2021；曹等，2022；他等，2024；黄等，2024d；盛等，2024a；姚等，2023年）。深度学习的快速发展推动了这一领域的显著发展，特别是通过模仿学习（IL）和强化学习（RL）（Huang et al.，2024c；Wu等人，2024），如图1 (a).所示IL旨在通过模拟专家演示来学习驾驶政策，在受控环境中取得令人印象深刻的性能（Huang等人，2024c）。然而，基于il的方法面临着固有的局限性：它们严重依赖于演示数据的规模和质量，并且在训练分布之外表现出较差的泛化性。相比之下，RL通过最大化精心设计的奖励功能，使代理能够通过与环境的直接交互来主动学习最佳驾驶策略（Huang et al.，2024c）。支持rl的方法的有效性已在各种决策场景中得到证明，如安全导航(Mao等人，2024年；他等人，2024年）、汽车跟踪控制（Hart等人，2024年）、轨迹控制（Sheng等人，2024年b）和车道改变（Guo等人，2024年）。

然而，应用RL的一个主要挑战是设计适当的奖励功能，从而导致预期行为（Ma等人，2023；Venuto等人，2024；谢等人，2024；Wang等人，2024）。虽然RL在奖励功能明确定义的领域（如游戏、机器人操纵）非常成功，但它在自动驾驶中的应用仍然存在困境（Ye等人，2024；Hazra等人，2024；Han等人，2024；Zhou等人，2024）。根本的困难是，“良好驾驶”的概念包含了复杂的、依赖于环境的行为，依赖于难以量化和编码的隐性知识（Ye et al.，2024）。这反映了波兰尼的悖论，该悖论声称“我们知道的比我们能知道的更多”（波兰尼，2009）。传统上，自动驾驶领域的奖励功能通常基于专家直觉和启发式手动设计，通常结合多个子目标，如速度维护、车道跟踪和避碰等（Chen等，2022；Wang等，2023a；Zhang等，2024）。然而，这个过程被视作“奖励工程”，需要大量的人力努力和试错迭代（Abouelazm等人，2024年）。Han等人（2024年）指出，Knox等人（2023年）；Abouelazm等人（2024年），它面临一些挑战，如专家知识依赖、多目标冲突和概括性限制。

最近在基础模型，特别是大型语言模型（LLMs）（OpenAI，2023）和视觉语言模型（VLMs）（Radford et al.，2021），在理解自然语言指令和复杂视觉场景方面显示出了显著的能力。这一进展启发了研究人员在RL中探索使用这些基础模型来塑造奖励，为奖励设计的长期挑战提供了一个有前途的解决方案。其关键思想是利用基础模型丰富的语义理解能力，将人类指定的目标转化为奖励信号，从而有效地指导RL训练（Venuto等人，2024；Ma等人，2023；Xie等人，2024）。在机器人技术领域，将基础模型集成到奖励功能中已经显示出了很强的性能和良好的泛化能力。这一领域的许多实验都集中在期望目标状态定义明确且容易指定的任务上，例如“将胡萝卜放在碗中”进行操作任务（Kim et al.，2024）。这种明确的目标规范允许研究人员利用预先训练好的基础模型作为零射击奖励产生器，简化了奖励设计过程（Baumli等人，2023年；罗卡蒙德等人，2024年；桑塔克等人，2024年；傅等人，2024年）。然而，虽然这些方法在各种机器人任务中表现良好，但它们在安全自动驾驶的环境中遇到了重大挑战。与机器人操作任务不同，目标可以被高精度指定，驾驶目标，如“安全驾驶”本质上是抽象的和上下文相关的。由于真实世界驾驶场景的复杂性和可变性，基础模型很难有效地解释这些高级指令（Ye et al.，2024）。

最近的一些工作已经试图将基础模型与RL结合起来，用于自动驾驶。图1中的(b)说明了这种整合的两种主要范式：LLM-作为奖励范式和VLM-作为奖励范式。第一种方法直接调用llm来生成奖励函数或代码，结合人类反馈来迭代地改进设计。第二种方法使用vlm作为奖励函数，其中模型评估代理的状态，并根据与指定目标的对齐提供即时反馈，以指导行为。尽管有了这些进展，现有的作品仍然面临着几个关键的限制： (a)大多数作品仅仅依赖语言描述来实现期望的行为（Zhou等人，2024；Yildirim等人，2024）。虽然Ye等人（2024）提出了一种相反的奖励设计，但它只关注消极的场景，而忽略了积极和消极的驾驶行为之间丰富的语义关系。(b)许多方法在部署过程中依赖于实时基础模型推理（Hazra等人，2024；Han等人，2024；Zhou等人，2024），引入延迟问题对于安全关键驾驶决策是不可接受的。©目前的方法主要在简化模拟环境中验证其有效性，如高速环境模拟器（Yildirim等，2024；叶等，2024；韩等，2024；Zhou等，2024）。这些方法使用简化的状态表示，它不能捕捉到在实际自动驾驶汽车中使用的真实世界传感器（如相机图像）的复杂性。(d)许多现有的方法产生离散的高级命令（例如，车道变化、加速）（Zhou等人，2024；Ye等人，2024），这不足以实现现实世界车辆操作中所需的连续和精确控制。

观察人类如何学习新技能，我们发现人们通常通过对比例子学习更有效。例如，当教某人做牛排时，老师经常强调正确和不正确的技巧：“完美煮熟的牛排有金黄色的外壳，内部有均匀的粉红色”，而“如果牛排完全变成深棕色，有烧焦的味道，那就煮过头了”。这有助于学习者通过认识到期望的和不期望的结果来发展对正确的烹饪技术的全面理解。从人类学习中汲取灵感，我们提出了一个统一的框架来集成预先训练过的VLMs和在线RL，名为VLM-RL，如图1 ©.所示。VLM-RL从根本上重新考虑了如何集成基础模型进入基于rl的自动驾驶系统。我们首先引入对比语言目标（CLG）的概念来指导基于rl的安全驾驶任务。在VLM-as-奖励的基础上，提出了一种新的CLG-as-奖励范式，利用CLG产生更多的信息和上下文感知的奖励。为了提高学习的稳定性，采用了分层奖励综合的方法，将基于CLG的奖励与车辆状态信息相结合。然后将这些综合奖励与政策培训的标准RL相结合。此外，还采用了批处理技术来提高训练过程中的计算效率。

更重要的是，VLM-RL实现了一个闭环的端到端训练管道，该管道将基于摄像机的感知与连续的控制输出集成在一起，解决了现有工作的一个重大限制，后者通常依赖于简化的状态表示和离散的操作。我们的贡献可以总结如下：

我们提出了VLM-RL框架，它利用预先训练过的vlm作为零射击奖励模型，消除了在基于rl的安全驾驶任务中对明确的奖励工程的需要。据我们所知，VLM-RL是自动驾驶领域中第一个将vlm和RL统一到卡拉模拟器中的端到端驾驶策略学习的工作。
我们提出了一种新的CLG-as-Rerard范式，它利用预先训练的vlm通过测量驱动状态和对比语言描述（即积极和消极语言目标）之间的语义对齐来生成语义奖励信号。
我们提出了一种分层的奖励综合方法，将基于CLG的奖励与车辆状态信息相结合，以提供全面和稳定的奖励信号。该方法解决了仅使用来自vlm的粗语义奖励的局限性，这可能会由于不完整或不精确的行为描述而误导策略优化。
我们开发了一种批处理技术，以确保计算效率。一批观察结果不是立即计算每次观察结果的奖励，而是定期从重放缓冲区中采样，并通过预先训练好的VLM进行处理。VLM-RL可以无缝地集成到几乎任何标准RL中，从而实现一致的性能改进。
我们在卡拉模拟器中进行了广泛的实验，证明了它在安全性、效率和对不同驾驶场景的泛化方面的显著改进。具体来说，与最先进的基线相比，VLM-RL的碰撞率降低了10.5%，路线完成率提高了104.6%，并成功地推广到没有微调的以前未见过的场景。

本文的其余部分组织如下。第2节回顾了相关的工作。第三节介绍了准备工作和问题的表述。第4节详细介绍了所提议的VLM-RL框架。第5节介绍了实验设置和结果。最后，第6节总结了论文，并概述了未来的研究方向。

2 相关工作

2.1 基于基础模型的奖励设计

奖励功能的设计仍然是RL中的一个基本挑战。最近，一种新的范式出现了，它利用基础模型来为RL产生奖励信号。Kwon等人（2023年）首次展示了llm的潜力，如GPT-3（OpenAI，2023年），在为基于文本的任务生成奖励方面的潜力。随后的工作扩展了这一想法，表明llm可以生成用于机器人训练的结构化代码（Yu等人，2023年）和用于各种代理的Python代码（Xie等人，2024年；Ma等人，2023年）。然而，这些方法通常假设可以获取详细的环境信息，这在自动驾驶中是具有挑战性的。例如，可能无法获得关于周围车辆的速度和位置的准确数据。在这项工作中，VLM-RL直接从机载摄像机捕获的视觉输入中产生奖励信号，这并不需要这样的假设。VLM-CaR（Venuto等人，2024年）通过将任务分解为子目标来降低VLM查询成本，尽管这对于安全驾驶任务是困难的。其他工作使用预先训练过的vlm的嵌入空间，如CLIP（Radford et al.，2021）。Mahmoudieh等人（2022年）首次使用微调剪辑作为机器人操作的奖励模型。VLM-SR（Baumli等人，2023）通过阈值化将基于相似性的奖励转换为二元奖励，而RoboCLIP（Sontakke等人，2024）将任务视频嵌入与代理行为进行了比较。VLM-RM（Ro卡蒙德等人，2024）使用基于目标的基线正则化提高奖励，RL-VLM-F（Wang等人，2024）整合人类偏好标签以提高奖励质量，FuRL（Fu等人，2024）解决奖励错位问题，以进一步细化奖励信号。这些方法在机器人领域工作得很好，其中目标状态可以被vlm精确地定义和容易理解。相比之下，自动驾驶涉及到难以定义或验证的内在模糊语言目标状态。此外，机器人技术的任务通常涉及静态或受控的环境，而自动驾驶必须处理多个代理和不确定的动态场景。

2.2.自动驾驶系统中的基础模型

最近基础模型的突破激发了研究人员将其应用于自动驾驶领域，包括场景理解（如驾驶（田等，2024)、跳跃（梅等，2024)、规划（如迪鲁（温等，2023)、驾驶传销（王等，2023b))、场景生成（如聊天张等（2024）、聊天（魏等，2024))、人机交互（如驾驶（黄等，2024a)、驾驶（崔等，2024))和端到端驾驶（如LMDrive（Shao等，2024）、DriveGPT4（Xu等，2024）)。尽管有了这些进展，但在安全驾驶任务中利用基础模型进行奖励设计还有待充分探索。LLM-RL（Zhou et al.，2024）利用llm通过自然语言提示直观地塑造奖励功能，从而实现更多类似人类的驾驶行为。HighwayLLM（Yildirim等人，2024）将LLM与RL集成，以在高速公路驾驶场景中提供可解释的决策。回归（Hazra et al.，2024）将奖励设计框架为一个进化搜索问题，利用llm和人类反馈来创建与人类相一致的奖励功能。相比之下，VLM-RL不需要人工反馈。自动奖励（Han et al.，2024）利用llm通过一个闭环框架自动生成和完善奖励功能。大多数现有的工作严重依赖于来自基础模型的实时推断，这可能会增加诸如延迟问题等限制。VLMRL并不依赖于直接的模型查询，而是利用它们的嵌入空间来进行奖励计算。也许最接近我们的工作是LORD（Ye et al.，2024），它使用不希望的语言目标来塑造代理的行为。VLM-RL和LORD之间的关键区别是： (a) VLM-RL同时使用期望和不期望的目标，并结合车辆状态信息来获得更丰富的奖励信号；(b) VLM-RL使用基于摄像头的视觉输入来获得更多信息；© VLM-RL实现了一个端到端管道，产生连续的控制输出。

3.前期准备工作

3.1 部分可观测马尔可夫决策过程

部分可观测马尔可夫决策过程（POMDP）由元组（S、A、θ、R、O、ϕ、γ、d0）定义，其中S为状态空间，A为动作空间，θ（S‘|，A）：S×S×A→[0,1]表示过渡函数，R（s，a，S’）：S×A×S→R为奖励函数，O表示观测空间，ϕ（O|）：S→∆(O)为观测分布，d0(s)： S→[0,1]为初始状态分布。在每个时间步长，环境占据一个状态∈S，代理选择一个操作∈ A. 环境转换到一个新的状态s‘，概率为θ（s’|，a）。然后代理收到概率为ϕ（|‘）的观察和奖励r = R（s，a、s’）。一系列状态和动作形成轨迹τ =（s0、0、s1、1、…），其中si∈和ai∈ A. 轨迹τ的回报是奖励的贴现和： g（τ；R）=PTt=0γtR（st，st+1）。代理的目标是找到一个策略π（|），最大化预期回报G(π) = Eπ[g（τ (π)；R）]

3.2.视觉语言模型

近年来，vlm取得了显著进展（You et al.，2024）。这些模型被广泛地定义为那些能够处理语言输入l∈L≤n和视觉输入序列的模型。在这种情况下，L表示一个有限的字母表，L≤n表示长度可达n的字符串。同样，I表示二维RGB图像的空间，I≤m由长度可达m的图像序列组成。一个值得注意的预先训练的VLMs是CLIP（Radford等人，2021），它包括一个语言编码器CLIPL： L≤n→V和一个图像编码器CLIPI： I→V，两者都映射到一个共享的潜在空间V⊆Rk。这些编码器通过对图像-标题对的对比学习进行联合训练。训练的目标是最小化匹配对嵌入之间的余弦距离，同时最大化非匹配对的余弦距离。CLIP在各种下游任务中都表现出了强大的性能，并表现出了令人印象深刻的零射击传输能力（Rocamonde等人，2024年）。

3.3.问题陈述

我们将训练自动驾驶代理的任务建模为POMDP，类似于罗卡蒙德等人（2024年）。代理的目标是学习一个最优策略π： S→a，使期望的累积奖励最大化，表示为H(π) = E h P T t=0 γ tR（st，at）| π i。在这种情况下，一个关键的挑战是设计一个有效的奖励函数R（s，a，s‘）来引导代理走向理想的行为。传统的奖励工程要求手动规范复杂的行为和约束，这可能是乏味的、容易出错的，并且很难在不同的驾驶场景中推广。理想情况下，我们希望直接使用vlm来为代理提供奖励R (s)来指导所期望的行为，就像在机器人技术领域所做的那样。然而，如前所述，直接使用vlm作为自动驾驶的奖励仍然面临着关键的挑战。我们的目标是为安全驾驶任务创建一个专门的VLM-as-奖励框架，以消除对明确的奖励函数G(π) = E h P T t=0 γ tRVLM (s) | π i的需要。

4 Framework: VLM-RL

在本节中，我们将介绍对VLM-RL框架的详细描述。该框架通过利用预先训练过的vlm（即CLIP）的语义理解能力，解决了自动驾驶中奖励设计的基本挑战.

图2：用于自动驾驶的VLM-RL框架的体系结构。用于政策学习的(a)观察和行动空间；(b)定义CLG提供语义指导；基于©CLG的语义奖励计算使用预先训练的vlm；(d)层次奖励合成，将语义奖励与车辆状态信息集成，以获得全面和稳定的奖励信号；(e)采用批处理的策略训练，使用存储在回放缓冲区中的经验执行SAC更新，奖励异步计算以优化效率

4.1.概述

VLM-RL框架由四个主要组件组成。首先，我们定义了CLG的概念，它描述了期望和不期望的驾驶行为，为奖励计算提供了基础。其次，我们利用CLIP来计算当前驱动状态和这些对比性的语言描述之间的语义对齐，产生语义奖励信号。第三，我们开发了一种分级奖励综合方法，将语义奖励与车辆状态信息（如速度、航向角）相结合，产生稳定、全面的奖励信号。第四，为了优化计算效率，我们实现了一种批处理技术，它定期处理来自回放缓冲区的观察结果，而不是实时计算奖励。图2展示了我们的框架的总体架构。我们将在下面的小节中详细描述每个组件。

4.2.对比语言目标的定义

机器人技术的最新进展已经证明，在利用预先训练好的vlm作为不同任务的零射击奖励模型方面取得了显著的成功（Sontakke et al.，2024）。给定一个任务T及其自然语言描述l∈L≤n，基本的方法是利用vlm来生成奖励信号，引导代理走向期望的行为。这可以正式表示为（Rocamonde et al.，2024）
在这里插入图片描述
其中c∈L≤n是一个可选的上下文，可能包含附加的信息或约束。在这个公式中，VLM取语言目标l、当前的观察ψ(s)和可选的上下文c，并输出一个奖励信号。

在机器人技术中，这种公式的成功依赖于用精确的语言描述任务和目标状态的能力。例如，在操作任务中（图3 (a)），像“把胡萝卜放在碗里”这样的目标是明确和明确的，允许vlm通过比较其嵌入空间V⊆Rk中的状态-目标关系来有效地测量进展。相比之下，自动驾驶则提出了独特的挑战，因为“安全驾驶”的目标包括各种可接受的行为和状态。这一抽象的目标使得在当前的车辆状态和目标之间很难建立明确的语义比较。虽然LORD（Ye et al.，2024）通过使用相反的语言目标（图3 (b)）来解决这个问题，但这种方法通过只关注要避免的状态而提供了有限的指导。

从人类学习中获得灵感，人们通常通过对比不同的目标更有效地学习，例如前面提到的牛排烹饪场景，我们建议使用vlm来生成语义奖励5，通过调整驾驶状态与对比语言描述的信号（图3 ©）。具体地说，我们引入了CLG的概念，它被定义为封装了期望的和不期望的驾驶行为的积极和消极的描述对。

图3：奖励设计范式的概念性比较。(a)机器人操作任务通常具有明确定义的目标（例如，“把胡萝卜放在碗里”），使vlm能够提供明确的语义奖励。(b)现有的只使用消极目标（例如，“两辆车相撞”）的方法侧重于回避，但缺乏积极的指导。©我们的CLG-as-Reward范式集成了积极和消极的目标，允许VLM-RL为更安全的驾驶提供更丰富、更通用的语义指导

定义1（对比语言目标）。给定一个驱动任务T，我们将对比语言目标定义为一对（lpos，lneg）∈L≤n×L≤n，其中lpos，lneg∈L≤n分别表示积极和消极的语言目标。积极的目标描述期望的结果（例如，“道路清晰，没有车祸”），而消极的目标指定不希望的情况（例如，“两辆车在道路上相撞”）。基于等式的(1)，CLG的奖赏功能被定义为
在这里插入图片描述
具体来说，我们希望正组件将引导代理走向一个理想的状态，而负组件将阻止代理进入一个不理想的状态。最终的目标是通过鼓励不良行为和惩罚不良行为来提供更多信息丰富的奖励信号。第4.3.2节提供了此想法的详细实现。

4.3.基于CLG的语义奖励计算

4.3.1.VLM作为奖励，重新访问

安全的驾驶任务通常依赖于稀疏的奖励信号。在此设置中，在每个时间步t，给定从状态st导出的观察ψ（st），代理根据其策略πθ在∼πθ（在|st）执行一个操作。然后环境提供一个稀疏任务奖励rt任务，通常定义为rt任务= δsuccess，这意味着只有在任务成功时才会获得1的奖励，否则奖励为0（Cao et al.，2022）。这种稀疏奖励给RL训练带来了巨大的挑战，因为它们在大部分状态空间中提供了有限的学习信号。一种常见的方法是通过结合速度和到路径点的距离等指标来手动设计密集的奖励信号，或者通过简单的总和（Wang et al.，2023a）或加权聚合（Chen et al.，2022）。它非常耗时，需要专业知识，并可能导致相互冲突的子目标，从而导致次优策略。

基于在等式中引入的一般VLM奖励公式(1)，最近的研究（罗卡蒙德等人，2024；Baumli等人，2023；Fu等人，2024）提出用VLM生成的奖励rt VLM来增强这些稀疏任务奖励。这种混合的奖励公式可以表示为
在这里插入图片描述
其中，ρ > 0是一个加权参数，用来平衡VLM生成的奖励与稀疏任务奖励的相对重要性。

定义2（VLM作为奖励的范式）。鉴于视觉编码器VLMI： O→V和语言编码器VLML： L≤n→V映射到相同的潜在空间V⊆Rk，以及一系列的状态-动作转换{st，at，rt，st+1}Tt=1，VLM奖励被定义为
在这里插入图片描述
其中，D： V×V→R是嵌入式表示之间的距离度量。大多数作品采用CLIP（雷德福等人，2021年）作为预先训练的VLM，使用余弦相似度作为距离度量（罗卡蒙德等人，2024年；Sontakke等人，2024年）

其中，sim（·，·）表示嵌入之间的余弦相似度，VLMI和VLML分别为视觉编码器和语言编码器。在这种情况下，我们不需要上下文c。在这里，语言目标l通常表达所期望的行为。计算过程包括三个步骤： (a)观察ψ(s)通过VLMI处理，获得嵌入共享潜在空间的状态。(b)语言目标通过VLML编码，以获得各自在同一空间中的嵌入。©奖励被计算为状态嵌入和目标嵌入之间的余弦相似度。

虽然这种公式适用于具有具体目标的机器人任务，但自动驾驶缺乏这种明确的目标。在最近的工作中，LORD（Ye et al.，2024）建议使用相反的语言目标来完成安全驾驶任务。他们的关键见解是，不期望的状态（例如，碰撞）通常比期望的状态更具体，也更容易指定。通过将奖励功能RLORD (s)定义为
在这里插入图片描述
该公式的目的是最小化当前观察结果与消极目标之间的相似性，从而惩罚不良行为。通过只关注避免消极状态，这种方法可能缺乏对理想行为的积极指导，这可能限制了学习效率

4.3.2 CLG作为奖励范式

根据定义2中的VLM-as-奖励范式，我们提出了一种新的专门为安全驾驶任务设计的CLG-as-奖励范式。

定义3（CLG作为奖励的范式）。鉴于定义1中引入的CLG（lpos，lneg），我们将CLG奖励函数定义为
在这里插入图片描述
其中，α，β > 0为满足α+β = 1的加权因子。如果α > β，代理更专注于实现积极的目标，而如果α < β，代理强调避免负面的结果。为了简单起见，在这项工作中，我们设置了α = β = 0.5，即这两个目标的优先级相同。sim（·，·）表示在等式中定义的嵌入之间的余弦相似度 (5).

这个公式确保了代理同时受到积极目标和消极目标的引导。换句话说，它鼓励代理寻求与积极目标相似的状态，同时避免与消极目标相似的状态，为政策学习提供更多的信息指导。以下星期四。1正式确立了CLG-即奖励范式的有效性。

定理1（CLG作为奖励范式的有效性）。假设VLM嵌入能够准确地捕获了观察中的语义内容和语言目标。在此假设下，优化策略π以最大化等式中定义的CLG奖励RCLG(7)鼓励代理同时增加与积极目标的相似性，同时减少与消极目标的相似性。因此，学习到的策略不仅达到了预期的驾驶行为，而且避免了不预期的驾驶行为。

证据1。代理商的目标是使预期的折扣回报最大化：
在这里插入图片描述
sim（VLMI（ψ（st）），VLML（lpos））的增加表明当前状态st与正目标更接近。由于RCLG增加了一个与这种相似性成比例的术语，因此类似于积极目标的状态会产生更高的奖励。相反，RCLG减去一个与sim成比例的术语（VLMI（ψ（st）），VLML（lneg）），意思是类似于消极目标的状态会减少奖励。因此，最大化RCLG自然会将代理推向在语义上更接近积极目标而远离消极目标的状态。
在形式上，假设st和s不是具有嵌入vt = VLMI（ψ（st））和vt‘=VLMI（ψ（s’t））的两个潜在的后续状态。定义vpos = VLML（lpos）和vneg = VLML（lneg）。如果
在这里插入图片描述
然后是RCLG（st）>RCLG（s‘t）。通过重复的交互和策略更新，代理将倾向于选择导致st而不是s‘t的操作，因为st会产生更高的预期回报。

随着时间的推移，这种一致的偏好确保了学习到的策略收敛于提高正相似性，同时减少负相似性的行为。因此，结合积极和消极的目标比单独使用任何一个目标提供了一个信息更丰富的学习信号，从而导致更好的政策学习。此外，正如附录A所示的理论上，CLG-as-Reward范式增强了学习策略的鲁棒性，使其对不确定性和对抗性扰动更有弹性。

4.4.分级奖励综合

在这项工作中，我们遵循标准的VLM-as-Reward范式，即只使用任务的语言描述（罗卡蒙德等人，2024；桑塔克等人，2024；Wang等人，2024）。然而，正如Fu等人（2024）所指出的，虽然零镜头vlm在捕获粗语义方面很有效，但它们往往在准确表示细粒度细节方面表现不足。此外，单一语言描述不能全面捕捉期望驾驶行为的所有细微差别。因此，仅仅依赖语义奖励RCLG可能会误导复杂驾驶场景中的策略优化。之前的工作探索了各种策略来解决这个问题： LAMP（Adeniji等人，2023）使用基于VLM的奖励行为预训练，ZSRM（马茂迪等人，2022）再培训与任务特定的数据集，和未来（傅等人，2024）微调VLM表示和使用中继RL技术。

与这些方法相比，我们的目标是通过集成车载传感器很容易提供的车辆状态信息来保持vlm的零射击能力，以产生更稳定和更全面的奖励信号。详细地，我们提出了一种分层的奖励综合方法，包括两个阶段： (a)从VLMs中生成归一化的语义奖励，而(b)将这些语义奖励与车辆状态信息相结合，产生综合奖励信号。

第一阶段：语义奖励规范化。首先，我们通过CLIP处理批次批观察帧来计算语义奖励rt CLG。为了确保稳定性，我们将相似度得分归一化到范围[0,1]
在这里插入图片描述
其中，θmin和θmax分别根据经验设置为-0.03和0.0，以避免极值，并确保比例一致。夹（x、a、b）将x约束在区间[a、b]内。

第二阶段：集成车辆状态信息。我们结合车辆状态信息来产生综合奖励信号。这一步利用车载传感器数据，以确保奖励捕获真实的驾驶行为和安全约束

定义4（综合奖励功能）。综合奖励函数Rsones：S→R是通过将归一化语义奖励r‘CLG t与车辆状态信息相结合来计算的。具体为：

在这里插入图片描述
其中速度调制速度对齐，计算为速度=1−|v−v速度|max与速度=r‘CLG t·vmax。fcenter (s)评估车辆相对于车道中心的横向位置。fangle (s)测量车辆相对于道路方向的方向。车辆稳定性(s)说明了车辆相对于车道中心的横向位置的一致性。每个项都以[0,1]为界。

与传统的加权和奖励设计相比（Chen等人，2022；Wang等人，2023a），这种乘法公式自然地捕获了安全标准的相互依赖性，而不需要进行广泛的参数调整。它产生了一个可解释、稳定的、易于实现的奖励结构，它利用了来自VLM的语义指导和可操作的、高保真的车辆状态信号。分层奖励综合的工作流程在附录B中显示为伪代码。我们还在附录C和附录D中演示了综合奖励函数的收敛性和稳定性。

现在，通过结合等式中的综合奖赏功能（11）与等式(3)，我们获得了VLM-RL框架的最终奖励函数
在这里插入图片描述
这个公式允许代理从明确的任务成功信号和密集的、上下文感知的奖励中获益。稀疏任务奖励rt任务保证了主体保持目标导向，而综合奖励rt合成提供了基于高级语义理解和低级车辆动态的连续反馈。

4.5.使用批量处理的策略培训

我们采用软参与者-批评者（SAC）算法（Haarnoja et al.，2018）作为骨干RL框架，因为它在连续控制任务中具有优越的样本效率和稳定性。SAC算法的目标是最大化期望回报，同时通过熵正则化鼓励探索。其目标可以写成：
在这里插入图片描述
式中，γ∈[0,1)为贴现因子，α > 0为控制返回与熵最大化之间权衡的熵温度参数，H（πϕ（·|st））为状态st处策略的熵。

要更新策略参数ϕ，SAC将最小化以下目标：
在这里插入图片描述
其中D是回放缓冲区，Qθ是由θ参数化的q函数。

q函数参数θ通过最小化软贝尔曼残差来更新：

在这里插入图片描述
其中，Qθ¯是一个目标q函数，具有定期更新的参数θ¯。

在这里，我们用等式中定义的rt‘替换软贝尔曼残差中的标准奖励rt (12):

在这里插入图片描述
在培训期间，评论家网络学习了基于等式来估计未来的回报（16），而策略网络通过标准的SAC策略梯度更新来学习最大化这些回报。

为了解决CLIP推理的计算瓶颈，我们开发了一种批处理技术。在环境交互期间，（ot、st、at、rt、ot+1、st+1）的元组被存储在一个重放缓冲区中。这里，ot表示CLIP处理所需的原始观测图像，st包含策略学习所处理后的状态信息。在预定义的时间间隔内，我们从重放缓冲区中取样一批观察结果，并通过CLIP编码器处理它们。CLG的CLIP嵌入（lpos和lneg）只在训练开始时只计算一次，因为它们保持不变。我们根据等式计算综合奖励（11），然后用于更新重放缓冲区中存储的转换。SAC算法随后通过其策略优化的标准更新程序对这些更新后的转换进行采样。这种方法有效地将计算上昂贵的奖励计算与主RL训练循环解耦，使代理能够在异步计算奖励的同时继续学习。完整的培训程序概述见附录E。

5.实验和结果

5.1.实验设置

5.1.1.RL设置

RL代理采用三种类型的输入： (1)鸟瞰视图（BEV）语义分割图像，该图像捕捉周围环境，包括可驾驶区域、车道边界和其他交通参与者，如图4 ©-(e)所示。这为导航和避障提供了重要的空间信息。(2)自我状态信息，包括当前的转向角度、油门值和车速。这些值反映了车辆的动态状态，并对保持平稳的控制至关重要。(3)沿计划路线的未来15个路径点所代表的未来导航信息。每个路径点都由其相对于车辆当前位置的（x，y）坐标来定义，帮助代理理解和遵循所需的轨迹

动作空间被设计为一个连续的二维空间[−1,1]2，其中每个维度控制着车辆运动的不同方面。第一个维度对应于转向角度，[−1,1]中的值表示转向控制的全部范围。其中，−1表示最大左转，0表示直前方，+1表示最大右转。第二个维度将油门和制动控制结合在一个单一的值范围内[−1,1]。当此值为正（[0,1]）时，它直接映射到油门强度，其中1表示全油门。相反，当该值为负值时，其绝对值映射到制动强度，其中−1对应于全制动。事件终止时满足以下任何条件： (a)碰撞任何障碍、车辆或行人，(b)偏离道路中心线超过3米，或©车辆速度保持低于1 km/h连续超过90秒，表明代理卡住或无法进步。这些终止条件旨在加强安全驾驶行为和确保有效的导航进度。

我们在稳定基线3库（Raffin et al.，2021）上构建了我们的实现，它提供了现代RL算法的可靠和经过充分测试的实现。稳定-基线3提供了一个模块化的设计和稳定的性能，允许我们专注于扩展核心算法，而不是从头开始实现它们。具体来说，我们扩展了SAC和PPO的标准实现，以便在训练过程中整合了我们基于CLG的分层奖励计算。该策略网络架构是专门为处理异构输入类型而设计的：我们采用6层CNN从BEV语义分割图像中提取特征，同时使用MLPs处理自我状态信息和未来导航路径点。然后将这些处理过的特征连接起来，然后输入最终的策略头部进行行动预测。

在这里插入图片描述

5.1.2.驾驶场景

我们在卡拉镇2地图中对所有模型进行训练，以确保进行公平的比较，并评估我们的方法和所有基线模型的有效性。如图5 (b)所示，该城镇呈现出典型的欧式城市布局，具有各种具有挑战性的驾驶场景。它由几个相互连接的区域组成，包括一个居民区、一个带有单车道道路的商业区和一个由红绿灯控制的复杂十字路口。城镇2的紧凑性质使其特别适合评估，因为它在可管理的范围内提供不同的驾驶条件，包括直线道路和弯曲路段，多个t形路口，以及不同类型的车道标记和道路几何形状。这些特性为评估基本的驾驶能力和复杂的决策行为创造了具有挑战性的场景。在第5.7.1节中，我们进一步评估了我们的方法在城镇1、3、4和5中的泛化能力，如图所示。分别为5 (a)、©、(d)和(e)。除非另有说明，所有的结果都是根据在第2镇进行的实验来报告的。

为了创造一个更现实和更具挑战性的环境，我们在城里安装了20辆自动驾驶模式的车辆。这些车辆在地图上随机生成，并使用卡拉公司内置的交通管理器进行操作，这使它们能够遵循交通规则，响应交通灯，并执行基本的碰撞避免。这种动态的交通流量显著地增加了我们的RL代理的学习任务的复杂性，因为它现在必须处理各种交互式场景，如汽车跟踪、超车和屈服于其他车辆。多辆移动车辆的存在不仅使环境更接近于现实世界的城市驾驶条件，而且也挑战了RL代理开发更健壮和更具适应性的驾驶策略。

5.1.3.导航路线

在训练和评估过程中，我们动态地分配导航路线。在每次重置时，我们利用图5 (b)中可驱动路线上可用的101个预定义的衍生点作为潜在的起始位置和目的地位置。具体来说，我们随机选择两个不同的产卵点作为起始点和结束点，然后使用A*搜索算法计算它们之间的最短路径，从而成为代理的导航路径。值得注意的是，我们没有在到达目的地时结束事件，而是通过重复这个随机选择和路径规划过程，不断地为代理生成新的导航路线。这种动态路线分配一直持续到一集内的累计驾驶距离达到3000米，使我们能够在一个事件中评估代理在不同导航场景中的表现。

5.1.4.CLIP配置

我们使用CLIP模型（Radford et al.，2021）作为我们基于CLG的语义奖励生成的基础VLM。具体来说，我们利用OpenCLIP的ViT-bigG-14模型，在LAION-2B数据集上以2.32进行了预先训练英语中的十亿个图像-文本对（Schuhmann等人，2022年）。该模型采用了14×14像素的贴片大小，并接受分辨率为224×224像素的图像作为输入，我们通过调整原始carla相机图像的大小来获得。在推理过程中，我们利用CLIP的视觉编码器从驾驶场景中提取高维特征表示，而文本编码器则处理我们预定义的CLG。在我们的实验中，所有的CLIP组件都被冻结，以保持稳定和一致的语义奖励生成。

5.2.评价指标

为了全面评估我们的自动驾驶系统的性能和安全方面，我们采用了多个定量指标来评估驾驶效率和安全特征。为了评估驾驶效率，我们测量了车辆在整个事件中保持的平均速度（AS），路线完成时间（RC）表示一次事件中成功完成的路线数量，以及捕获每次事件中车辆累计覆盖距离的总行驶距离（TD）。

安全性能通过几个互补的指标进行评估。基本碰撞率（CR）测量包含碰撞事件的事件的百分比。我们通过两个频率指标进一步分析了碰撞模式：基于时间的碰撞频率（TCF），测量每1000个时间步长的碰撞，以及基于距离的碰撞频率（DCF），测量每公里行驶的碰撞。为了评估碰撞的严重程度，我们记录了每次碰撞时刻的碰撞速度（CS）。此外，我们跟踪了相互碰撞时间步长（ICT），它测量了连续碰撞事件之间的平均时间步数，为安全事件的时间分布提供了见解。在测试阶段，我们还报告了成功率（SR），以评估模型通过10个预定义的路线成功到达目的地的能力。

5.3.基线

我们将我们的方法与最先进的基线进行了比较，这些基线可以分为两类：专家设计的奖励方法和lm设计的奖励方法。

专家设计的奖励方法。我们使用SAC和PPO，使用手动设计的奖励功能来实现以下基线。这些方法包括只考虑碰撞状态的二元奖励，以及结合多个加权术语来指导驾驶行为的总和奖励:

TIRL（Cao et al.，2022）采用了一种简单的二元奖励，只用-1惩罚碰撞状态，并给所有其他状态分配0个奖励。
Chen-SAC（Chen et al.，2022）采用奖励功能，惩罚碰撞、超速、偏离车道和过度转向，同时激励前进速度和控制横向加速度来指导自动驾驶决策
ASAP-RL-PPO（Wang et al.，2023a）采用了一种奖励功能，为前进、到达目的地和超车提供积极的激励，同时对与其他车辆的碰撞或道路限制进行处罚。
ChatScene（Zhang et al.，2024）设计了一个加权总和的奖励条款，鼓励平稳驾驶行为（纵向速度、横向加速和转向控制），同时惩罚不安全行为（碰撞、车道外驾驶和超速）。一个小的持续奖励作为基本激励，以促进学习。

lm设计的奖励方法。我们还比较了最近利用语言模型进行奖励设计的方法，包括基于llm和基于VLM的方法：

旋转和旋转-自动（Hazra et al.，2024）引入了一个进化框架，利用llm生成基于人类反馈的奖励功能代码。为简单起见，我们采用本文提供的表现最好的奖励函数进行比较。
VLM-SR（Baumli等人，2023）使用像CLIP这样现成的vlm，通过计算图像观察和语言目标之间的余弦相似度来生成二值奖励信号，然后使用softmax归一化和阈值来确定目标实现。
RoboCLIP（Sontakke et al.，2024）通过计算代理轨迹的视频观察和任务描述符之间的相似性，在每一集结束时产生稀疏的奖励信号。由于自动驾驶的复杂性，我们通过使用CLIP来计算每一帧的图像观察和语言目标之间的相似性，产生一个密集的奖励信号。
VLM-RM（Rocamonde等人，2024）使用基线目标方法将当前状态嵌入到基线状态（例如“汽车”）和目标状态（例如“汽车安全驾驶”）之间的方向上。
产生负面奖励，以惩罚不安全的驾驶行为，使用具体的不希望的状态，如“碰撞”来塑造奖励信号。我们还通过加入一个密集的基于速度的奖励，来调整这个基线，以进一步引导代理基于驾驶速度的行为。

5.4.主要结果

我们对我们提出的VLM-RL与各种基线方法进行了详细的评估。1-2和图。6-9.所有实验均使用三种不同的随机种子进行，并训练了100万步，以确保具有统计学意义。在Tab中报告的性能指标。1表示在这三个独立运行的训练过程中，最终检查点的平均值和标准差。对于测试结果，我们根据综合的性能指标从每次训练运行中选择性能最佳的检查点，相应的评估结果见Tab。 2.学习曲线如图所示。6-9跟踪不同方法的训练进展，其中实线表示三个种子的平均表现，阴影区域表示与平均值的一个标准差。这种可视化使我们不仅可以观察最终的表现，还可以在整个训练过程中观察不同方法的学习动态和稳定性。

5.4.1.训练性能分析

我们首先比较了VLM-RL和专家设计的奖励方法。从图6中的训练曲线可以看出，TIRL表现出相对较低的碰撞率和较高的无碰撞间隔。然而，这种看似积极的表现实际上是代理未能学习到基本的驾驶行为的结果。如标签页中所示。1、TIRL-SAC仅实现0.01 km/h平均速度，0.01路线完成，0.21m总驾驶距离，表明代理基本上保持静止，而不是学习导航。相比之下，我们的VLM-RL在所有关键指标上都显示出了卓越的性能。它的平均速度为17.4 km/h，同时保持了2.6 km/h的低碰撞速度，最重要的是，它成功地完成了4.4条路线，总行驶距离为1780米。这一综合性能表明，VLM-RL成功地学习了安全驾驶行为和有效的导航策略。TIRL的不佳表现可以归因于其在自动驾驶环境中简单的二元奖励设计的局限性。二进制奖励只惩罚碰撞（-1），而将中性奖励(0)分配给所有其他状态，这创造了一个重大的探索挑战。在自动驾驶中，动作空间是连续的，状态空间是高度复杂的，这种稀疏的二值奖励不能为代理提供足够的学习信号来发现有效的驾驶行为。没有前进或成功导航的正强化，代理只能通过保持静止来最小化碰撞风险。这代表了一种避免负奖励但未能实现实际驾驶目标的局部最优方案。

与其他专家设计的具有加权累加项的奖励方法相比，VLM-RL表现出更平衡和稳定的性能。陈萨克实现了更高的平均速度19.9 km/h，但遭受DCF和TCF的碰撞频率较高，而0.68条路线的路线完成率较低，这表明其奖励设计以牺牲安全为代价，过度强调了速度。ASAP-RL-PPO保持了相对安全的驾驶，碰撞率较低，为0.21，但仅通过0.04条路线行驶，进展有限。这表明其奖励功能可能过于保守，导致过度谨慎的驾驶行为。ChatScene变体在各个指标上表现中等，但难以平衡驾驶效率和安全性，其碰撞率分别为0.88和0.83，显著高于VLM-RL的0.68。如图7所示，我们的方法表现出更稳定和一致的学习进度。虽然其他方法在训练过程中经常表现出高差异或不稳定的行为，但VLM-RL在所有指标上都保持着稳定的改进。值得注意的是，在训练的后半段，碰撞率的持续下降表明，代理在保持高驾驶效率的同时，提高了避免危险情况的能力。这种学习模式是我们的方法所特有的，因为其他方法要么显示出波动的碰撞率，要么以牺牲进展为代价来实现安全性。此外，我们的方法在所有方法中达到了最高的路线完成率，为4.4米，总行驶距离为1780米。这种优越的表现表明，与手动设计的奖励功能相比，我们基于CLG的奖励和分级奖励综合提供了更多的信息和平衡的学习信号，有效地指导代理学习安全有效的驾驶行为。

接下来，我们将我们的方法与基于llm的奖励方法进行了比较。如标签页中所示。1、旋转和旋转自动都达到相当的驾驶速度（17.6 km/h和17.3 km/h），但表现出相对较高的碰撞率（0.76和0.83）和有限的路线完成数（1.9和1.4）。图8中的训练曲线显示了有趣的行为模式。虽然旋转变体快速学习实现和保持与VLM-RL相当的高平均速度，但它们在安全方面的斗争，从他们在整个训练中持续的高碰撞率证明。相比之下，VLM-RL表现出了更平衡的学习轨迹，逐渐提高了驾驶效率和安全性。最值得注意的是，虽然旋转和旋转自动在路线完成和总旅行距离方面的改善有限，但VLM-RL继续取得稳步进展，最终达到路线完成率的两倍以上（4.4对1.9）和显著更长的驾驶距离（1780米对671米）。这表明，我们基于CLG的层次奖励设计提供了更全面和结构良好的学习信号比较。

当与基于VLM的奖励方法进行比较时，我们观察到不同的表现模式。尽管VLM-SR、RoboCLIP和VLM-RM已经在机器人任务中取得了成功，但在仅依赖VLM衍生的语义奖励时，它们在自动驾驶场景中表现出有限的有效性。这些方法分别达到了非常低的平均速度，分别为0.31、0.47和0.15 km/h，并且路线完成数都低于0.22，这表明它们很难学习基本的驾驶行为。图9 (a)-(f)中的训练曲线显示，这些方法保持相对较低的碰撞率，主要是因为代理保持几乎静止，与TIRL观察到的行为相似。机器人操作和自动驾驶之间的性能差距源于根本的任务差异。

机器人任务通常涉及离散的、定义良好的目标状态，如抓取对象或操纵工具，这些工具可以被基于VLM的相似性度量有效地捕获。相比之下，自动驾驶需要连续的、动态的决策，其中所期望的行为是随着时间的推移而演变的多个目标的复杂组合。我们的层次奖励综合方法通过结合高级语义了解CLG的低水平车辆状态信息，提供全面的学习信号，更好地指导驾驶政策来解决这一挑战

LORD及其不同的LORD-Speed都专门为自动驾驶设计，显示出不同的性能模式。虽然LORD实现了0.095的低碰撞率，但其平均速度0.08 km/h和路线完成率0.04表明了与其他VLM-only方法类似的限制。值得注意的是，LORD最初的成功在高速环境模拟器（Leurent，2018）中得到了证明，它具有离散的动作空间和简化的观察表示，这比我们具有连续控制和现实视觉输入的卡拉环境要复杂得多。LORD-Speed，它包含了额外的基于速度的奖励，显示出性能显著提高，平均速度为18.1 km/h，路线完成率为2.15。然而，这种改进是以安全为代价的，其0.92证明了这一点。如图9 (g)-(l)所示，LORD-Speed可以快速达到较高的平均速度，但不能有效地平衡安全和效率，在整个训练过程中保持持续的高碰撞率。相比之下，VLM-RL的学习进度更加平衡。这种优越的性能。

5.4.2.在测试中的性能评估

为了进一步验证VLM-RL的有效性，我们对10个预定义的路线进行了全面的测试评估，并将其性能与基线方法进行了比较。路线完成度量表示每个评估事件期间的平均路线完成率。测试结果。2显示了我们的方法与基线相比的显著优势。

二元奖励方法的局限性在测试阶段仍然很明显。TIRL变体的路线完成率分别为0.01，总驾驶距离分别为4.7米和14.8米，证实了它们未能学习到有意义的驾驶行为。在专家设计的具有加权累加项的奖励方法中，Chen-SAC保持了最高的平均速度为21.4 km/h，但效果有限，成功率为0.08，路线完成率为0.29，表明其积极的驾驶风格影响了任务的成功。ChatScene变体表现出更平衡的性能，成功率分别为0.73和0.63，尽管它们的碰撞速度分别为1.18 km/h和0.89 km/h，这表明存在潜在的安全问题。

基于llm的方法在测试过程中表现出了竞争性性能，rodive的成功率为0.83，路线完成率为0.92。然而，它们的碰撞速度分别为1.53 km/h和1.65 km/h表明持续的安全问题。大多数基于VLM的方法，包括VLM-SR、RoboCLIP、VLM-RM和LORD，都表现出高度保守的行为，路由完成率低于0.07，成功率为0.0。LORD-Speed显示了显著提高的效率指标，但在所有方法中记录了最高的碰撞速度为2.80 km/h。

相比之下，VLM-RL在测试期间在所有关键指标上都取得了卓越的性能。它保持了19.3 km/h的高平均速度，同时记录了0.02 km/h的低碰撞速度，符合最保守的方法的安全水平。最值得注意的是，VLM-RL获得了最高的成功率，为0.93，路线完成率为0.97，同时最长的总驾驶距离为2028.2米。这些结果表明，我们的方法不仅学习了更有效的驾驶策略，而且对测试场景表现出更好的泛化。在效率和安全指标方面的显著改进验证了我们基于CLG和分级奖励设计在为安全驾驶任务提供全面和良好平衡的学习信号方面的有效性。

5.5.消融研究

在我们之前与VLM-SR、RoboCLIP、VLM-RM和LORD的基线比较的基础上，建立了我们的分级奖励综合方法的优势，我们进行了消融研究，以进一步验证我们提出的CLG方法的有效性。具体来说，我们分别研究了当只使用积极的语言目标（VLM-RL-pos）和只使用消极的语言目标（VLM-RL-neg）时的表现。这些变体允许我们分析每种目标类型的个人贡献，并演示为什么通过我们的对比框架来结合两者会带来更好的性能。此外，我们比较了使用carla内置的基于分割摄像机的BEV作为RL代理的观察（VLM-RL-bev）作为消融实验的性能，以验证如图4所示的BEV设计的有效性。这些消融实验为我们的有效性的具体机制提供了额外的见解。

如图10所示，我们可以观察到清晰的模式，表明在我们的完整VLM-RL模型中，与其变体相比，结合积极和消极语言目标的优势。在安全指标方面，碰撞率表明，VLM-RL-pos和VLM-RL-neg都倾向于收敛到更高的碰撞率。碰撞间隔进一步支持了这一观察结果，VLM-RL-full保持了明显更长的碰撞间隔，达到近6000步，而变体之间大约有2500-3000步。在驾驶效率方面，平均速度表明三种车型最终达到17-18 km/h的可比速度。最显著的差异出现在已完成的路线和总旅行距离上，，其中VLM-RL-full具有显著性优于两种变体，完成4.4条路线，而变异约3条路线，覆盖近1800米和约1200米。

测试结果表3进一步验证了这些观察结果，并为我们的BEV设计的有效性提供了见解。VLM-RL-bev在平均速度（18.5 km/h）和路线完成（0.92）方面具有竞争性的性能，其碰撞速度0.48 km/h和成功率0.78表明与我们的完整模型相比安全性受损。这表明，我们定制的BEV设计更好地捕捉了安全导航的关键环境特征。单目标变体（VLM-RL-neg和VLM-RL-pos）在测试过程中显示出类似的模式，平均速度较高，但碰撞速度分别为0.94 km/h和1.47 km/h。相比之下，VLM-RLfull保持了相当的效率，同时实现了显著的较低的碰撞速度，为0.02 km/h，最高的成功率为0.93。这些结果表明，CLG方法导致了更平衡和有效的学习，使代理能够更好地导航在自动驾驶的安全和效率之间的权衡。

5.6.VLM-RL性能扩展跨CLIP模型大小

为了系统地研究VLM的规模如何影响VLM-RL的性能，我们用四种不同的尺寸和复杂性的CLIP模型进行了实验：ViT-B-32（基础）、ViT-L-14（大）、ViT-H-14（巨大）和ViT-bigG-14（巨大）。这些模型在架构参数上表现出显著差异，从基线ViT-B-32的86M参数到ViTbigG-14的超过1B参数。此外，它们利用了不同的视觉编码器配置：ViT-B-32使用32×32补丁处理图像，而较大的模型采用了更精细的14×14补丁尺寸，以增加视觉特征提取的粒度。

如图11所示，我们首先通过一个具有代表性的案例研究，分析了不同的CLIP模型变体所产生的语义奖励信号。图11 (a)中的BEVs序列描述了代理车辆与另一辆车辆发生侧撞的关键安全情况。图11 (b)中的奖励曲线显示，模型大小与奖励信号质量之间存在明显的相关性。最小的模型ViT-B-32产生的相对平坦的奖励波动在-0.02左右，表明对碰撞事件的敏感性较差。相比之下，ViT-bigG-14在所有变体中表现出显著的表现，产生最独特和可解释的奖励模式，从步骤30到50急剧下降到-0.14，然后随着车辆分离逐渐恢复。在更大的模型中观察到的语义奖励信号辨别的显著增强，特别是ViT-bigG-14，表明增加的模型能力使更复杂的场景理解能力，从而为强化学习代理生成更有效的学习信号。

我们进一步评估了不同的CLIP模型大小如何影响RL代理的性能。图12对VLM-RL-B、VLM-R-L-L、VLM-RL-H和VLM-RL-bigG进行了综合比较。结果揭示了跨模型尺度的安全性和效率之间的有趣的权衡。虽然VLM-RL-H达到最低的碰撞率，但其较低的平均速度约为2 km/h，这表明代理无法学习基本的导航技能，本质上以牺牲功能为代价优先考虑安全。相反，VLM-RL-L在所有变体中表现出最高的平均速度，但以最高的碰撞率为代价，这表明了对激进驾驶的不安全倾向。VLM-RL-B在完成路线和总数方面与VLM-RL-bigG相当旅行距离，但运行速度要低得多，这表明导航效率较低。在所有的变体中，VLM-RL-bigG表现出最平衡的性能，保持中等的碰撞率，同时实现高效的导航，这可以从其竞争的速度、路线完成率和旅行距离度量中得到证明。这些结果表明，ViT-bigG-14模型容量的增加使代理能够更好地平衡自动驾驶中安全和效率之间的复杂权衡。

5.7.泛化

泛化能力对于自动驾驶系统至关重要，因为它们必须适应训练场景之外的不同环境和条件。为了全面评估VLM-RL对不同场景的适应性，我们首先将我们的方法与两种表现最好的基线方法进行了比较，即ChatScene-SAC和旋转，跨越不同的城镇和不同的交通密度。我们还通过将其扩展到PPO算法，并与基于PPO的基线进行比较，证明了我们的方法的多功能性，这表明我们基于CLG的奖励设计在不同的RL框架中是有效的。

5.7.1.不同的城镇

为了评估VLM-RL在不同城市和农村环境中的泛化能力，我们在卡拉模拟器中在五个不同的城镇测试了我们的模型。如图5所示，城镇2作为训练环境，而城镇1、3、4、5代表了以前从未见过的具有不同布局和道路结构的环境。详细的性能比较如表4.

在城镇1中，VLM-RL表现出了卓越的性能，完美的成功和路线完成率为1.00，同时实现了最高的平均速度22.9 km/h，并保持了非常低的碰撞速度0.03 km/h。相比之下，两种基线方法的成功率都低于0.72，而在4.20 km/h以上的碰撞速度都大大提高。性能优势持续存在，在更具挑战性的城镇3和城镇5中，VLM-RL保持了0.87的高成功率，路线完成率在0.91以上。值得注意的是，与基线相比，VLM-RL实现了明显更低的碰撞速度，特别是在5Town中，旋转显示出5.35 km/h的高碰撞速度，而VLM-RL为0.46 km/h。城镇4是最具挑战性的场景，路线更长，这反映在总驾驶距离超过12000米。在这种环境下，ChatScene-SAC获得了略微更好的路线完成率和成功率，而VLM-RL保持了优越的驾驶效率，最高的平均速度为22.0 km/h，并显著提高了安全性能，与6.85 km/h相比，碰撞速度为2.15 km/h。

这些结果表明，VLM-RL成功地推广到不同的驾驶环境，而不需要额外的训练。不同城镇之间的一致性能优势验证了我们基于CLG和分级奖励设计抓住了基本的驱动原则，而不是过度适应特定的环境特征。这种鲁棒的泛化能力对于现实世界的自动驾驶应用尤为重要，在这些应用中，车辆必须导航不同的、以前未见过的环境。

5.7.2.不同的交通密度

为了评估VLM-RL在不同交通条件下的稳健性，我们在三个交通密度设置中测试了我们的模型，如Tab5所示。没有其他车辆的空场景，常规场景是我们默认设置的20辆自动驾驶车辆，以及有40辆自动驾驶车辆的密集场景。

在空的场景下，所有的方法都取得了完美的成功，路线完成率为1.0，碰撞速度为零，证明了它们在无障碍环境中的基本能力。然而，VLM-RL表现出优越的驱动效率，平均速度为23.8 km/h，显著高于在18.0 km/h时的ChatScene-SAC，以及在18.6 km/h时的旋转。在密集的交通场景中，性能差异在安全性方面变得更加明显。虽然旋转技术实现了略微更好的效率指标，最高的平均速度为18.3 km/h，路线完成率为0.89，但其碰撞速度显著提高到3.53 km/h。同样，ChatScene-SAC在碰撞速度为2.71 km/h时，安全性能下降。相比之下，VLM-RL保持了良好的安全性，碰撞速度为0.11 km/h，同时相当路径完成了0.87，最高成功率为0.80。这些结果表明了VLM-RL的一个重要特征。随着交通密度的增加，该模型通过优先考虑安全而非速度来进行调整，并表现出智能的风险感知行为。这种在效率和sa之间的适应性平衡

5.7.3.不同的RL算法

我们将我们的VLM-RL框架扩展到PPO算法，以证明它与不同的RL算法的兼容性。图13比较了VLM-RL-PPO与其他基于PPO的基线的训练性能，包括TIRL-PPO、ASAP-RL-PPO和ChatScene-PPO。结果表明，我们基于CLG的层次奖励设计在使用PPO实现时保持了其有效性。

如图13所示，VLM-RL-PPO在大多数指标上都显示出了优越的性能。虽然TIRLPPO的碰撞率很低，但它的平均速度和已完成的路线在整个训练过程中仍然接近于零，这表明代理没有学习到有意义的驾驶行为。ASAP-RL-PPO实现了更稳定的训练，但在路线完成和总旅行距离方面进展有限。ChatScene-PPO以中等的平均速度表现出更好的驾驶能力，但难以保持一致的性能，如波动的碰撞率和有限的路线完成率。最值得注意的是，VLM-RL-PPO显示了显著的学习进步导航功能。在整个训练过程中，已完成的路线的数量呈强烈的上升趋势，约为2.5条，而其他方法则不到1条。同样，旅行的总距离表现出实质性的和持续的增长，最终达到1000米左右，而其他基于ppo的方法则保持在300米以下。这两个指标的改进表明，VLM-RL-PPO有效地学习了导航复杂的环境和完成驾驶任务。同时，它的稳定平均速度，约15 km/h，同时成功管理碰撞风险。这些结果验证了我们基于CLG的层次奖励设计可以有效地与不同的RL算法集成，这表明我们的方法在安全驾驶任务中具有更广泛的适用性。

5.8.VLM语义奖励的可视化

为了更好地理解clip衍生的语义奖励的有效性和局限性，我们可视化了三个具有代表性的失败案例，并分析了积极、消极和CLG如何捕获不同的驾驶行为。图14显示了三个具有挑战性的场景下的图像序列及其对应的语义相似度得分。

在图14 (a)所示的追尾碰撞场景中，我们观察到，随着自我车辆接近领先车辆，正目标相似度得分逐渐降低，而负目标相似度得分增加。这种模式与我们的设计意图相一致，即不安全行为应该导致较低的正目标相似度和较高的负目标相似度。最终的对比分数显示出明显的下降趋势，正确地反映了追尾碰撞行为的不良性质。图14 (b)所示的侧碰撞情况显示了另一个有趣的模式。从第30步到第45步，正目标相似度没有显著下降，这表明VLM有时很难仅从积极的角度捕捉安全违规。然而，负目标相似性在碰撞过程中表现出一个明显的峰值，导致对比分数的适当下降，从而适当地惩罚这种不安全的行为。图14 ©所示的越野场景强调了纯粹基于VLM的语义奖励的局限性。而正目标相似度随着车辆偏离道路而下降，而负目标相似度也呈下降趋势。这导致了一个相对平坦的对比分数，不能充分惩罚越野行为。这种限制源于我们的语言目标，主要关注与碰撞相关的行为，缺乏对道路边界违反的明确考虑。

这些观察结果突出了VLM衍生的语义奖励的潜力和局限性。虽然CLG可以有效地捕获许多不安全的行为，但它可能不能提供适当的学习信号对于适当场景，特别是那些在语言目标中没有明确描述的场景。这强调了我们的分级奖励综合方法的必要性，该方法将这种高级语义理解与低级别车辆状态信息相结合，以提供更全面和可靠的奖励信号。

5.9.层次奖励综合分析

图中。15和16说明了我们的分级奖励综合方法如何将VLM衍生的语义奖励与车辆状态信息相结合，以产生全面的最终奖励。图15中的场景显示了自我车辆接近前方静止车辆的碰撞情况。第一行表示RGB图像，第二行显示相应的语义分割图。在第三行中，我们观察了不同的奖励成分在整个场景中是如何演变的。当自我载体接近领先载体时，正目标相似度稳步下降，而负目标相似度增加，导致对比目标得分下降。与图14 (a)相似，该模式有效地捕捉到了不断增加的碰撞风险。速度轮廓揭示了自我车辆行为的几个不同阶段。在步骤40之前，自我载体保持相对较高不变速度，尽管接近静止的车辆，我们的VLM认为这种行为可能不安全。因此，在这期间，最终的奖励仍然接近于零，有效地惩罚了这种攻击性驾驶行为。在步骤40和步骤80之间，自我车辆显著降低了其速度，以应对潜在的碰撞风险。这种谨慎的行为会得到增加的最终奖励，这证明了我们的奖励综合如何有效地鼓励适当的速度调整。在第80-100步中，当自我车辆在领先车辆后面完全停止时，最终的奖励达到其最高值，这验证了我们的奖励功能正确地将其识别为这种场景中的理想行为。然而，在第110步之后，当自我载体意外地再次开始移动，尽管障碍继续存在时，我们观察到最终奖励的急剧下降，适当地惩罚了这种不希望的行为。

图16展示了一个成功的驾驶场景，展示了我们的奖励如何有效地引导RL代理通过复杂的、多阶段的驾驶情况。该场景包括接近静止的车辆，保持安全的跟踪距离，并在领先车辆离开时恢复运动。VLM衍生的语义奖励的进化有效地捕捉到了场景的变化本质。正目标相似性最初随着自我车辆接近静止车辆时减少，然后在领先车辆离开和道路变得清晰后增加。相反，负目标相似度在接近阶段上升，在领先车辆离开后下降。对比的目标综合了这些模式，提供了一个清晰的与安全驾驶行为一致的学习信号。速度剖面揭示了几个不同的驾驶阶段，展示了代理的学习行为。最初，当道路畅通时，自我车辆以相对较高的约25 km/h的速度行驶。在步骤25和步骤125之间，当它检测到并响应前方的静止车辆时，速度在完全停止之前逐渐下降到大约5 km/h左右。在此期间，最终的奖励一直很高，由于制动反应略有延迟，在第25步附近有轻微的波动。在步骤125之后，当领先车辆恢复运动时，自我车辆表现出适当的加速行为，尽管我们在步骤160周围观察到一些暂时的奖励波动，暂时降低了安全边际。

图中的案例。15和16项研究强调了我们的等级奖励综合如何成功地引导代理通过不同的驾驶阶段，同时保持安全。最后的奖励有效地平衡了由VLM衍生的奖励所捕获的场景的语义理解和具体的车辆状态，鼓励了既有效又安全的行为。我们的方法证明了处理动态情况的稳健性，在不同驾驶模式之间适当转换，同时保持安全行为的高奖励值，并通过奖励调节惩罚潜在的风险行为。

6.结论与未来的工作

本文提出了一个统一的框架，VLM-RL，它将预先训练好的视觉语言模型（VLMs）与强化学习（RL）相结合，用于安全自动驾驶。这项工作的关键贡献在于通过利用vlm的语义理解能力来解决奖励设计的挑战。具体来说，我们引入了对比语言目标（CLG）作为奖励的范式，它利用积极和消极的语言目标来产生语义奖励。我们进一步介绍了一种基于CLG的分级奖励综合方法，该方法将奖励与车辆状态信息相结合，提高奖励稳定性，提供更全面的学习信号。为了减轻计算的挑战，采用了批处理技术，在训练过程中实现有效的奖励计算。在卡拉模拟器中进行了大量的实验，证明了VLM-RL的有效性。与最先进的基线相比，VLM-RL在安全性、效率和对未知驾驶场景的泛化方面取得了显著的改进。值得注意的是，VLM-RL降低了10.5%的碰撞率，提高了104.6%的路线完成率，并在不同的交通环境中表现出了强大的性能。这些结果验证了将vlm与RL集成，以开发更可靠和上下文感知的自动驾驶政策的潜力。

虽然VLM-RL显示出了有希望的结果，但未来的工作还有一些途径。首先，在训练和部署过程中提高VLM推理的计算效率仍然是一个挑战。可以研究诸如模型蒸馏或量化等技术来减少推理延迟。其次**，扩大驾驶任务和场景的范围，**包括与行人、骑自行车的人和交通信号的互动——特别是目前没有考虑到的交通灯——可以显著提高框架的鲁棒性和真实性。此外，集成人工循环反馈来动态细化基于CLG的奖励，可能提供额外的适应性和个性化，进一步调整驾驶政策与人类的偏好。总之，VLM-RL为基于rl的自动驾驶的奖励设计提供了一个健壮和可扩展的解决方案，为实现更安全、更一般化的驾驶政策提供了一个有前途的方向。在这一领域的持续研究有潜力弥合基于模拟的学习和现实世界部署之间的差距，推进自动驾驶领域向人类水平的安全和可靠性发展

确认

这项工作得到了威斯康星大学麦迪逊分校连接和自动化运输中心（CCAT）的支持，CCAT是更大的CCAT联盟的一部分，是由美国运输部资助的USDOT地区5大学运输中心，奖项编号#69A3552348305。本文的内容反映了作者的观点，他们对本文所提供的事实和数据的准确性负责，并不一定反映了赞助组织的官方观点或政策。

附录A.CLG-作为奖励的Paradi的稳健性

在这个附录中，我们展示了在等式中定义的CLG奖励(7)也增强了对不确定性或对抗性干扰的鲁棒性。首先建立了余弦相似度的利普希茨连续性的引理。然后，在适当的假设下，我们证明了RCLG继承了这个利普希茨连续性。最后，我们将演示这种连续性，结合积极和消极目标的存在，如何提高学习策略的鲁棒性

引理1（余弦相似度的Lipschitz连续性）。设u，v，w∈Rk为单位向量（即，∥u∥=∥v∥=∥w∥= 1）。然后，余弦相似函数是李普希茨常数L = 1。特别是，对于任何这样的向量
在这里插入图片描述
证据2。由于u、v、w是单位向量，余弦相似度降低为内积：

然后，

在这里插入图片描述
定理2（CLG奖励函数的利普连续性）。假设VLM编码器产生单位长度的嵌入。在此假设下，RCLG是连续的，其常数为L = 1。具体来说，对于任意两个状态s1，s2∈S：

其中，vi = VLMI（ψ（si））。

证据3。回想一下等式中RCLG的定义 (7):
在这里插入图片描述
使用α，β > 0和α + β = 1，和v = VLMI（ψ(s)）。
对于任何s1，s2，let v1 = VLMI（ψ（s1））和v2 = VLMI（ψ（s2））。然后

通过引理1，由于嵌入是单位范数，

对于g∈{pos，neg}。将其代入上面的不等式：

因此，RCLG与L = 1是连续的。

备注1。利普希茨的连续性确保了观察结果中的微小变化会导致奖励中的微小变化。这一特性通过减少梯度估计的方差和使学习过程更可预测，有助于稳定RL训练（Bhandari et al.，2018）。

定理3（CLG奖励的鲁棒性增强）。假设VLM编码器和观测函数ψ都是利普希茨连续的。设LVLM和Lψ表示它们各自的利普希茨常数。考虑一个摄动态s‘=+δs，其中δs是一个小的扰动。然后存在一个常数K = LVLMLψ，使：
在这里插入图片描述
这表明扰动下RCLG的变化受扰动的大小线性限制，使得策略对敌对或不确定扰动更具鲁棒性。
证据4。定义vs = VLMI（ψ(s)）和vs‘=VLMI（ψ（s’））。如果VLMI是LVLM-利普希茨，而ψ是Lψ-利普希茨，我们有：

从Thm 2中，可以得出：
在这里插入图片描述
结合这些不平等：

这表明，在扰动条件下的CLG奖励波动是有界的。现在考虑到，在对抗性或不确定的环境中，扰动可能会有选择性地降低与积极目标的相似性，或增加与消极目标的相似性。由于RCLG同时包括正和消极目标，它提供了一种冗余形式：如果扰动恶意影响一个相似性，另一个相似性可以部分补偿。一个精心选择的扰动可以极大地改变一个没有这种双重结构的单目标奖励。因此，RCLG的双目标结构固有地增强了鲁棒性。