NVIDIA×卡内基梅隆大学重磅突破:大语言模型重塑车联网协同自动驾驶,开创V2V-LLM新范式

这项来自NVIDIA和卡内基梅隆大学的研究着眼于自动驾驶领域一个关键问题:当前自动驾驶车辆主要依赖自身传感器来理解周围环境并规划轨迹,这在传感器故障或被遮挡时可能带来安全隐患。虽然业界已提出了基于车联网(V2V)通信的协同感知方法,但这些方法往往局限于物体检测和跟踪,对整体协同规划性能的贡献仍未得到充分探索。

©️【深蓝AI】编译

论文标题:V2V-LLM: Vehicle-to-Vehicle Cooperative Autonomous Driving with Multi-Modal Large Language Models

论文作者:Hsu-kuang Chiu, Ryo Hachiuma, Chien-Yi Wang, Stephen F. Smith, Yu-Chiang Frank Wang, Min-Hung Chen

论文地址:https://arxiv.org/abs/2502.09980

受近期大语言模型(LLM)在自动驾驶领域应用进展的启发,研究团队提出了一个创新性的研究方向:将LLM引入协同自动驾驶。具体而言,他们的工作包含三个主要贡献:

1.提出了V2V-QA数据集和基准测试,首次将问答形式引入车联网场景,支持物体定位、目标识别和路径规划等多样化任务。

2.开发了V2V-LLM基线方法,能够融合多个网联车辆的感知信息,并通过LLM回答驾驶相关问题,实现了一个统一的模型架构。

3.实验表明V2V-LLM在关键的目标识别和规划任务上优于其他基线方法,展示了这一方向的潜力。

这项研究开创了一个新的研究方向,为提升未来自动驾驶系统的安全性提供了新思路。通过引入LLM作为多车协同的"大脑",系统可以更好地理解复杂场景并做出更安全的决策。这种方法不仅解决了单车感知的局限性,还为协同自动驾驶提供了一个更加智能和灵活的解决方案。

01 背景介绍

随着深度学习算法的进步、计算基础设施的发展以及大规模真实世界驾驶数据集的发布,自动驾驶技术取得了显著进展。然而,当前自动驾驶车辆的感知和规划系统主要依赖于其自身的LiDAR传感器和摄像头来检测周围重要物体并规划未来轨迹。这种方法在传感器被遮挡或发生故障时可能会遇到安全关键问题。在这种情况下,自动驾驶车辆无法准确检测所有附近的重要物体,导致后续轨迹规划结果变得不可靠。

为了解决这个安全关键问题,近期研究提出了基于车辆间(V2V)通信的协同感知算法。在协同驾驶场景中,多个互相靠近的网联自动驾驶车辆(CAV)通过V2V通信共享它们的感知信息。来自多个CAV的感知数据随后被融合以生成更好的整体检测结果。为了支持和促进这项研究,一些协同自动驾驶数据集已经向公众发布,包括仿真数据集和真实数据集。这些数据集还建立了评估协同感知算法性能的基准。然而,迄今为止,协同驾驶研究和数据集主要关注感知任务。这些最先进的协同感知模型如何与下游规划模型连接以产生良好的协同规划结果尚未得到充分探索。

其他近期研究尝试利用基于大语言模型(LLM)的方法为单个自动驾驶车辆构建端到端感知和规划算法,这主要是由于LLM具有常识推理能力和从大规模预训练数据中获得的泛化能力。这些基于LLM的模型将原始传感器输入(如摄像头图像或LiDAR点云)编码为视觉特征,然后进行视觉理解并回答各种与驾驶相关的感知和规划问题。这些方法展现出了一些前景,但尚未探索协同感知和规划的好处。没有协同感知的基于LLM的驾驶算法在单个车辆的传感器被遮挡时也可能面临安全关键问题。

在这篇文章中,作者提出并探索了一个新颖的问题设定,即使用基于LLM的方法为协同自动驾驶构建端到端感知和规划算法。在这个问题设定中,假设有多个CAV和一个中央LLM计算节点。所有CAV都与LLM共享其个体感知信息。任何CAV都可以用自然语言向LLM提问以获取有助于驾驶安全的有用信息。

▲图1| 基于LLM的协同自动驾驶问题设置概述。所有CAV都与LLM分享其感知信息。任何CAV都可以向LLM提问,以获取对驾驶安全有用的信息©️【深蓝AI】编译

02 相关工作

2.1. 自动驾驶中的协同感知

协同感知算法最初是为了解决单个自动驾驶车辆可能存在的遮挡问题而提出的。开创性工作F-Cooper首次提出了中间特征融合方法,通过合并特征图来实现良好的协同检测性能。V2VNet构建了用于协同感知的图神经网络。DiscoNet采用了知识蒸馏方法。更近期的工作如AttFuse、V2X-ViT和CoBEVT整合了基于注意力的模型来聚合特征。另一组研究工作则专注于开发高效的通信方法。

从数据集的角度来看,OPV2V、V2X-Sim和V2XSet等仿真数据集首先被用于协同感知研究。最近,研究人员开始收集真实数据集。V2V4Real是第一个全球可用的真实车辆间协同感知数据集,包含检测和跟踪基准。其他数据集进一步包含了来自路侧基础设施的传感器数据。

与这组研究不同,作者的问题设定和提出的V2V-QA数据集同时包含了多个CAV的感知和规划问题答答任务。作者提出的V2V-LLM模型也采用了一种新颖的基于LLM的融合方法。

▲表1| V2V-QA与最近相关的自动驾驶数据集之间的比较©️【深蓝AI】编译

2.2. 基于LLM的自动驾驶

近期研究中,LLM已被用于构建单个自动驾驶车辆的规划算法。这种基于语言的规划模型首先将驾驶场景、物体检测结果和自车状态转换为LLM的文本输入。然后LLM生成包含建议驾驶动作或规划未来轨迹的文本输出。然而,这种方法可能会遗漏来自LiDAR传感器或摄像头原始输入的重要详细视觉信息。

更近期的方法使用多模态大语言模型(MLLM)来编码点云或图像为视觉特征。然后,视觉特征被投影到语言嵌入空间,供LLM执行视觉理解和问答任务,如为自动驾驶车辆进行场景描述、物体定位和路径规划。

从数据集的角度来看,一些基于LLM的自动驾驶数据集是建立在现有自动驾驶数据集之上的。例如,Talk2Car、NuPrompt、NuScenes-QA、NuInstruct和Reason2Drive基于NuScenes数据集创建了场景描述、感知、预测和规划问答对。BDD-X是从BDD100K扩展而来。DriveLM采用了来自NuScenes的真实数据和来自CARLA的仿真数据,以获得更大规模和更多样化的驾驶问答对。其他独立策划的数据集关注不同类型的问答任务。HAD包含人机建议数据。DRAMA引入了联合风险定位和场景描述。Lingo-QA提出了反事实问答任务。MAPLM-QA强调地图和交通场景理解。

与所有只支持单个自动驾驶车辆的基于LLM的驾驶研究不同,作者的问题设定和提出的V2V-QA数据集是为具有多个CAV的协同驾驶场景设计的。

03 V2V-QA数据集

3.1. 问题设定

作者提出的基于LLM的V2V协同自动驾驶问题如图1所示。在这个设定中,假设存在多个网联自动驾驶车辆(CAV)和一个中央LLM计算节点。所有CAV都与中央LLM共享其个体感知信息,如场景级特征图和物体级特征向量。任何CAV都可以用自然语言向LLM提问以获取驾驶安全相关信息。LLM汇总来自多个CAV的感知信息,并为提问的CAV提供自然语言答案。在本研究中,问答包括物体定位(Q1-3)、重要物体识别(Q4)和规划(Q5),如图2所示。

▲图2| V2V-QA的5种QA对的说明。指向LLM的箭头表示来自CAV的感知数据©️【深蓝AI】编译

3.2. 数据集详情

作者的V2V-QA数据集是建立在V2V4Real数据集之上的,后者是首个全球可用的具有车辆间协同感知基准的真实数据集。这个基础数据集是通过同时驾驶两辆配备LiDAR传感器的车辆收集的。除了原始LiDAR点云外,该数据集还包括驾驶场景中所有车辆的3D边界框标注。训练集包含32个驾驶序列,每个CAV总共有7105帧数据;测试集包含9个驾驶序列,每个CAV总共有1993帧数据。帧率为10Hz。作者在构建V2V-QA数据集的5种问答对时遵循相同的训练和测试分割。

表2总结了作者提出的V2V-QA中问答对的数量。总共有577K个问答对,平均每帧31.7个问答对。更多细节可以在补充材料中找到。

▲表2| V2V-QA的数据集统计©️【深蓝AI】编译

3.3. 问答对的策划

对于V2V4Real数据集的每一帧,作者创建了5种不同类型的问答对,包括3种定位问题、1种重要物体识别问题和1种规划问题。这些问答是为协同驾驶场景设计的。为了生成这些问答对的实例,作者使用了V2V4Real的真值边界框标注、每个CAV的真值轨迹和个体检测结果作为源信息。然后作者使用基于上述实体之间几何关系的不同手动设计规则和文本模板来生成问答对。文本模板可以在图5和图6中看到。每种问答类型的生成规则描述如下:

Q1. 参考位置的物体定位(图2a):在这类问题中,询问LLM是否存在物体占据特定查询2D位置。如果存在,LLM需要提供该物体的中心位置。否则,LLM应该指出在参考位置没有物体。为了生成这类问答对的实例,作者使用真值框和每个CAV的个体检测结果框的中心位置作为问题中的查询位置。通过这样做,可以更多地关注评估每个模型在潜在的假阳性和假阴性检测结果上的协同定位能力。

Q2. 参考物体后方的物体定位(图2b):当CAV的视野被附近的大型检测物体遮挡时,该CAV可能想询问中央LLM,在融合了所有CAV的感知信息后,是否存在任何物体在那个遮挡的大物体后方。如果存在,LLM需要返回该物体的位置,询问的CAV可能需要更谨慎地驾驶或调整其规划。否则,LLM应该指出参考物体后方没有物体。为了生成这类问答对的实例,作者使用每个检测结果框的中心位置作为问题中的查询位置。他们基于询问CAV和参考物体的相对姿态绘制一个扇形区域,并选择该区域内最近的真值物体作为答案。

Q3. 参考方向后方的物体定位(图2c):作者通过将Q2中的参考2D位置替换为参考方向关键词,进一步挑战LLM的语言和空间理解能力。为了生成这类问答对的实例,作者首先获取CAV在6个方向上最近的检测结果框作为参考物体。然后按照Q2中相同的数据生成方法,获取相应扇形区域内最近的真值框作为答案。

Q4. 重要物体识别(图2d):前述定位任务可以被视为自动驾驶流程中的中间任务。自动驾驶车辆更关键的能力涉及识别计划轨迹附近的重要物体,并调整未来规划以避免潜在碰撞。在重要物体识别问题中,作者从未来3秒的真值轨迹中提取6个路点作为问题中的参考未来路点。然后获取距离参考未来轨迹10米范围内最多3个最近的真值物体作为答案。

Q5. 规划(图2e):与前述问答类型相比,规划是自动驾驶系统最重要的输出,因为自动驾驶车辆的最终目标是安全地穿过复杂环境并避免未来可能的碰撞。为了生成规划问答对,作者从每个CAV未来3秒的真值未来轨迹中均匀提取6个路点作为答案。作者的V2V-QA规划任务相比其他基于NuScenes的LLM驾驶相关工作更具挑战性,原因有两个:首先,作者支持协同驾驶场景中的多个CAV。LLM模型需要根据询问规划建议的CAV提供不同的答案,而先前工作只需要为单个自动驾驶车辆生成规划结果。其次,作者的V2V-QA基于V2V4Real,包含城市和高速公路驾驶场景。这两种不同环境中车辆的运动模式差异很大。相比之下,基于NuScenes的LLM驾驶研究只需要考虑城市驾驶场景。

3.4. 评估指标

作者参照前期工作,使用F1分数、精确率和召回率来评估不同模型在定位问题(Q1、Q2、Q3)和重要物体识别问题(Q4)上的性能。对于规划问题(Q5),评估指标是L2误差和碰撞率。

04 V2V-LLM

除了提出数据集,作者还提出了一个针对这个基于LLM的协作驾驶问题的竞争性基线模型V2V-LLM,如图3所示。这个模型是一个多模态LLM(MLLM),它将每个CAV的个体感知特征作为视觉输入,将问题作为语言输入,并生成答案作为语言输出。

▲图3| 作者提出的用于协作自动驾驶的V2V-LLM模型图©️【深蓝AI】编译

4.1. 基于LiDAR的输入特征

为了提取感知输入特征,每个CAV对其个体LiDAR点云应用3D物体检测模型:PEGO和P1。作者从3D物体检测模型中提取场景级特征图SEGO和S1,并将3D物体检测结果转换为物体级特征向量OEGO和O1。参照V2V4Real和V2X-Real的前期工作,作者使用PointPillars作为3D物体检测器以进行公平比较。

4.2. 基于LiDAR的LLM

模型架构:考虑到LLaVA在视觉问答任务上的出色表现,作者利用它来开发自己的MLLM。然而,由于作者的协同驾驶任务使用的是基于LiDAR的感知特征而不是LLaVA使用的RGB图像,作者使用前文描述的基于LiDAR的3D物体检测器作为点云特征编码器,而不是LLaVA的CLIP图像特征编码器。然后将得到的特征输入到基于多层感知机的投影网络,实现从点云嵌入空间到语言嵌入空间的特征对齐。对齐后的感知特征作为感知令牌,与来自问题的输入语言令牌一起被LLM处理。最终,LLM汇总来自所有CAV的感知信息,并基于问题返回答案。

作者的V2V-LLM使用LLaVA-v1.5-7b的Vicuna作为LLM骨干网络。为了训练模型,作者首先通过加载预训练的LLaVA-v1.5-7b的检查点进行初始化。作者冻结LLM和点云特征编码器,只微调投影器和模型的LoRA部分。在训练过程中,批量大小为32。作者对Q1训练1个epoch,对其他问答类型训练10个epoch。对于所有其他训练设置和超参数,作者使用与LLaVA-v1.5-7b相同的配置。

05 实验

5.1. 基线方法

作者参照V2V4Real和V2X-Real的工作,通过在不同融合方法上的实验为提出的V2V-QA数据集建立基准:无融合、早期融合、中间融合和作者提出的LLM融合(图3)。与作者的方法相比,其他基线方法也采用相同的投影器和LLM架构,但使用不同的点云特征编码器。它们的特征编码器示意图可以在图4中看到。

▲图4| 不同融合方法的基线方法的特征编码器图©️【深蓝AI】编译

无融合:只将单个CAV的LiDAR点云输入到单个3D物体检测器中,以提取场景级特征图和物体级特征向量,这些特征随后作为LLM的视觉输入。由于忽略了其他CAV的传感器输入,预期性能会比所有其他协同感知方法差。

早期融合:首先合并两个CAV的LiDAR点云。然后将合并的点云作为输入,送入3D物体检测器以提取作为LLM视觉输入的特征。这种方法通过使用所有原始传感器输入可能获得良好性能,但与其他融合方法相比需要更高的通信带宽。这一限制使得早期融合方法在实际自动驾驶车辆上部署时不太实用。

中间融合:先前的研究如CoBEVT、V2X-ViT和AttFuse提出了不同的协同检测模型,可以通过注意力机制合并多个CAV的特征图。这些方法需要较少的通信带宽,仍然可以获得良好的性能。在作者的基准测试中,从这些协同检测模型中提取特征作为LLM的视觉输入。

LLM融合:作者将提出的V2V-LLM归类为一种新的融合方法——LLM融合,它让每个CAV执行个体3D物体检测以提取场景级特征图和物体级特征向量,并使用LLM融合多个CAV的特征。这种方法与传统的后期融合方法相关,后者执行个体3D物体检测并通过非极大值抑制(NMS)聚合结果。但不同于应用NMS,作者的方法采用LLM来执行更多的任务,而不仅仅是检测。

5.2. 实验结果

物体定位

作者的V2V-LLM和基线方法在V2V-QA的三种定位问题上的性能可以在表3中看到。结果显示所有融合方法都优于无融合方法。早期融合、V2X-ViT中间融合和作者提出的V2V-LLM分别在Q1、Q2和Q3上取得最佳结果。平均而言,CoBEVT取得最好的结果,V2V-LLM取得第二好的结果。这些结果表明作者的多模态LLM也具有很有前景的能力来融合来自多个CAV的场景级特征图和物体级特征向量。其性能与其他专门设计的中间融合模型的性能相差不远。

▲表3| V2V-LLM在V2V-QA测试中的表现以及与基线方法的对比©️【深蓝AI】编译

重要物体识别

表3展示了在重要物体识别任务(Q4)上的性能。作者提出的V2V-LLM优于其他方法。与前述定位任务相比,这个重要物体识别任务需要更强的空间理解和推理能力,以识别靠近询问CAV提供的计划未来路点附近的物体。对于这样一个任务,让LLM同时执行特征融合和问题回答的V2V-LLM取得了最佳结果。

规划

表4展示了在规划任务(Q5)上的详细性能。作者提出的V2V-LLM在这个最重要的问题上优于其他方法,这类问题需要更强的空间理解和推理能力来生成能避免潜在碰撞的安全未来轨迹。

▲表4| 在规划任务中V2V-LLM的表现和与基线方法的对比©️【深蓝AI】编译

总结

总的来说,V2V-LLM在自动驾驶应用中比定位任务更重要的重要物体识别和规划任务上取得最佳结果。V2V-LLM在定位任务上也取得第二好的结果。在通信成本方面,V2V-LLM同时共享场景级特征图和物体级特征向量,与其他中间融合基线方法相比仅增加1.5%的通信成本。

5.3. 消融研究

作者对V2V-LLM模型进行变体实验,分别只使用场景级特征图或只使用物体级特征向量作为视觉输入。消融研究结果可以在表5中看到。总体上,场景级特征图和物体级特征向量都对所有问答任务的最终性能有贡献。在Q1和Q3中,仅场景级模型和仅物体级模型取得相似的性能。对于其他问答任务,仅物体级模型明显优于仅场景级模型。这表明物体级特征更容易被LLM理解,这与之前TOKEN模型中观察到的结果一致。

▲图5| 消融试验©️【深蓝AI】编译

5.4. 定性结果

图5展示了作者的V2V-LLM在V2V-QA测试集上的定位结果和真值可视化。可以观察到V2V-LLM能够根据每种定位问题中提供的参考信息定位物体。图6的左侧展示了V2V-LLM的重要物体识别结果。V2V-LLM展示了其识别每个CAV问题中指定的计划未来轨迹附近多个物体的能力。图6的右侧展示了V2V-LLM的规划结果。作者的模型能够建议避免与附近物体潜在碰撞的未来轨迹。总的来说,作者模型的输出在所有问题类型上都与真值答案紧密对齐,表明其在协同自动驾驶任务上的鲁棒性。

▲图6| V2V-LLM在V2V-QA测试集上的定位结果和真值可视化©️【深蓝AI】编译

▲图7| V2V-LLM在V2V-QA测试分割中表现出目标识别和规划结果©️【深蓝AI】编译

06 结论

本文扩展了协同自动驾驶的研究范围,通过整合大语言模型的使用,旨在提高未来自动驾驶系统的安全性。作者提出了一个新的问题设定,并创建了一个新颖的V2V-QA数据集和基准,其中包括为多种协同驾驶场景设计的物体定位、重要物体识别和规划问答任务。作者提出了一个基线模型V2V-LLM,该模型融合每个CAV的个体感知信息,并执行视觉和语言理解来回答来自任何CAV的驾驶相关问题。

与其他从最先进的协同感知算法改编的基线方法相比,作者提出的V2V-LLM在定位任务上取得了可比的性能,并在更重要的重要物体识别和规划任务上优于所有其他基线方法。这些实验结果表明,V2V-LLM有望成为一个统一的基础模型,能够有效地执行协同自动驾驶的感知和规划任务。作者相信V2V-QA数据集将把协同驾驶研究领域推向下一个阶段。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值