最近将类人的推理能力融入到端到端自动驾驶系统中已经成为了一个前沿的研究领域。其中,基于视觉语言模型的方法已经吸引了来自工业界和学术界的广泛关注。
现有的VLM训练范式严重依赖带有自由格式的文本标注数据集,如图1(a)所示。虽然这些描述能够捕捉丰富的语义信息,但由于两种结构不同但是表达相近的句子会增加模型在学习任务中的复杂性和计算开销,导致模型无法专注核心的推理任务。此外,由于语言描述中还会存在冗余的信息,这对于自动驾驶系统的下游决策过程带来不必要的认知负荷。
图1:不同VLM算法模型训练范式比较©️【深蓝AI】编译
此外,现有的一些基准模型通常依赖于大规模的语言模型,这些模型通常包含超过70亿个参数,甚至更多以实现多模态对齐和推理。虽然超大参数VLM可能在各种基准测试中取得不错的性能,但同时存在高昂的计算成本、内存消耗和推理延迟等问题。
针对上述提到的相关问题,本文提出了一个结构化、简洁的数据集NuScenes-S,其源自于NuScenes数据集。此外,本文提出了一种紧凑的VLM基线模型,称之为FastDrive,专门为小规模参数的端到端自动驾驶方案而设计。FastDrive 通过采用思维链式过程来模拟人类驾驶员的推理策略,执行场景理解、感知、预测和决策任务,从而实现与端到端自动驾驶框架的有效结合。
本文的主要贡献如下:
● 本文引入一个结构化的数据集,该数据集关注与驾驶决策密切相关的关键要素,从而消除冗余信息,解决自由格式文本注释中同义表达的局限性,并提高推理效率
● 本文提出了一个具有0.9B参数的紧凑型VLM基线模型,它模仿人类驾驶员的推理策略,并实现了与端到端自动驾驶框架的有效对齐
● 本文针对NuScenes-S和FastDrive进行了全面的评估和广泛的实验。结果证明所提出的数据集和模型的有效性,并在NuScenes-S数据集上取得了具有竞争力的性能
场景描述
本文提出的NuScenes-S数据集中的场景描述旨在提供更全面的驾驶场景视图,解决许多现有数据集中经常被忽视或表示不足的问题。NuScenes-S中的场景描述结构清晰、简洁,包含以下关键元素:天气、交通状况、驾驶区域、交通灯、交通标志、道路状况、车道线、时间。其相关的具体细节如下所示
● 天气:天气条件包含晴天、雨天、雪天、雾天以及多云
● 交通状况:交通状况包括低、中等
● 驾驶区域:驾驶区域包括交叉路口、枢纽、环岛、住宅区、人行横道、停车场
● 交通灯:交通灯包括绿灯、红灯和黄灯
● 交通标志:交通标志包括速度限制、停车、让行、禁止停车、禁止调头、禁止左转、禁止右转、禁止超车、单行线
● 道路状况:道路状况包括光滑、粗糙、潮湿、结冰,施工
● 车道线:车道线包括右转、左转、直行、直行右转、直行左转、掉头、左转调头、右转调头
● 时间:时间包括白天和夜间
感知和预测
识别一些关键目标并预测其未来的状态对于驾驶员的决策至关重要。NuScenes-S数据集中的感知和预测任务结构如下: 目标:摄像头、2D边界框,未来状态。
● 相机视角:相机视角包括前向、前左、前右、后向、后左、后右
● 2D边界框:2D边界框包含两个对角线的坐标
● 未来状态:未来状态包括直行、左转、右转、轻微左转、轻微右转、停止、怠速
决策
根据感知和预测任务做出决策是驾驶员安全驾驶的最后也是关键的一步。NuScenes-S数据集中的决策任务结构如下:决策:横向移动、纵向移动
● 横向移动:横向移动包括左转、右转、轻微左转、轻微右转、直行
● 纵向移动:加速、减速、巡航、怠速
数据集的构建
数据集的整体构建过程如图2所示。具体来说,在场景描述方面,本文首先通过GPT和人工对场景信息进行标注,然后比较GPT和人工标注的结果,找出差异,并由人工标注对标注进行细化。在感知和预测任务中,本文首先定义一些规则来提取关键目标,然后使用VLM和人工同步对关键目标进行标注。最后,基于规则和人工注释对决策任务进行注释,以获得初始注释,然后由人工注释通过比较优化进一步完善。
图2:NuScenes-S数据集的整体构建过程©️【深蓝AI】编译
最后得到的NuScene-S数据集的样例如图3所示。
图3:NuScenes-S数据集用例示意图©️【深蓝AI】编译
本文提出的FastDrive算法模型的整体网络结构如图4所示。通过网络结构图可以看出,其整体遵循"ViT-Adapter-LLM"的架构范式。
图4:FastDrive端到端算法模型的整体网络结构图©️【深蓝AI】编译
视觉编码器模块
视觉编码器的主干网络是Vision Transformer,提取输入环视图像的视觉特征,并利用多层感知机投影到LLM的特征空间。本文还引入了可选的TokenPacker模块减少标记的数量,进而提高推理速度。
LLM代理
本文中的LLM在FastDrive算法模型中起到大脑的角色,并且选用的是Qwen2.5。它以视觉编码器的视觉特征和结构化语言指令作为输入,生成场景描述,识别关键物体,预测其未来状态,并以思维链的方式做出驾驶决策。
本文的实验在NuScenes-S数据集上进行,该数据集包含了102K个问答对。整个数据集被拆分成了84K个训练问答对和18K个测试问答对。评估指标包括语言指标、平均精度、召回率和决策准确率。
图5展示了本文的算法模型在场景理解方面的性能。实验结果表明,FastDrive在结构化基准数据集上取得了有竞争力的性能。
图5:在NuScenes-S数据上的场景理解性能©️【深蓝AI】编译
图6展示了不同算法模型在感知、预测以及决策任务上的性能对比,实验结果可以看出,FastDrive在预测和决策规划任务上实现了最佳的性能。
图6:在NuScenes-S数据集上感知、预测、决策任务性能©️【深蓝AI】编译
此外,本文也进行了相关的消融实验来验证提出的场景标注的有效性,如图7所示。
图7:场景标注对于驾驶决策的消融实验©️【深蓝AI】编译
本文为了更加直观的展示消融实验的效果,将模型的预测内容进行了可视化输出,如图8所示。
图8:消融实验部分的样例说明©️【深蓝AI】编译
本文引入了一个结构化的自动驾驶基准数据集NuScenes-S,它在感知、预测和决策任务中遵循类人的推理过程。此外,本文还提出了FastDrive,一个用于端到端的自动驾驶模型,在NuScenes-S数据集上取得了具有竞争力的性能,推理速度更快,参数更少。