Bench2Drive:面向闭环端到端自动驾驶的多能力基准测试

Bench2Drive: Towards Multi-Ability Benchmarking of Closed-Loop End-To-End Autonomous Driving

Bench2Drive:面向闭环端到端自动驾驶的多能力基准测试

在这里插入图片描述

Abstract

在这里插入图片描述
在基础模型快速扩展的时代,自动驾驶技术正迈向一个变革的门槛,端到端自动驾驶(E2E-AD)因其以数据驱动方式扩展的潜力而崭露头角。然而,现有的E2E-AD方法大多采用开环日志重放方式进行评估,以L2误差和碰撞率作为指标(例如,在nuScenes数据集中),但这并不能全面反映算法在驾驶方面的性能,这一点近期已在业界得到认可。对于那些在闭环协议下评估的E2E-AD方法,它们通常在固定路线进行测试(例如,在CARLA模拟器中的Town05Long和Longest6路线),以驾驶得分作为指标,但由于指标函数的不平滑性和长路线中存在的大量随机性,驾驶得分具有很高的波动性。此外,这些方法通常使用自行收集的数据进行训练,这使得在算法层面进行公平比较变得不可行。
为了满足全自动驾驶(FSD)对全面、真实、公平的测试环境的迫切需求,我们推出了Bench2Drive,这是首个以闭环方式评估端到端自动驾驶(E2E-AD)系统多种能力的基准测试平台。Bench2Drive的官方训练数据由200万帧完全标注的图像组成,这些数据是从CARLA v2模拟器的13638个短视频片段中收集的,这些片段均匀分布在44个交互场景(如切入、超车、绕行等)23种天气条件(晴天、雾天、雨天等)12个城镇(城市、村庄、大学等) 中。其评估协议要求E2E-AD模型在不同地点和天气条件下通过44个交互场景,总计220条路线,从而全面且清晰地评估它们在不同情况下的驾驶能力。我们在Bench2Drive上实现了最先进的E2E-AD模型并对其进行了评估,提供了关于当前状况和未来方向的见解。

1 Introduction

在这里插入图片描述
在这里插入图片描述
近年来,自动驾驶领域取得了巨大的发展,这得益于基础模型的快速进步和扩展[1–3]。这些进展引领了端到端自动驾驶(E2E-AD)系统的新时代[4–8],这些系统有望通过可扩展的数据驱动方法实现车辆自动化,与传统的基于模块的感知[9–13]、预测[14–17]、规划[18–20]流水线相对立。E2E-AD系统的设计初衷是从海量数据中学习,有望彻底改变车辆智能化的格局。
在这里插入图片描述
尽管E2E-AD系统取得了诸多进展,但其评估方法仍然是关键瓶颈。以下是对当前评估方法存在问题及需求的详细归纳:
当前评估方法
开环评估‌:一种流行的评估方式是使用如nuScenes等数据集中的专家轨迹记录进行日志重放,即开环评估。这种方法通常使用原始传感器信息作为输入,预测自车未来的位置。
评估指标‌:采用与记录轨迹的L2误差和碰撞发生率作为评估指标。
存在问题
规划能力展示不足‌:由于分布偏移、因果混淆[26, 27]等问题,开环评估指标在展示规划能力方面存在不足。
nuScenes数据集问题‌:其验证集规模小且不平衡(约75%的帧仅要求继续直线行驶),导致仅编码自车状态(位置、速度等)即可实现与复杂传感器输入方法‌相似的L2误差,这凸显了对闭环评估基准的需求。
需求
闭环评估基准‌:鉴于开环评估的局限性,业界广泛呼吁建立闭环评估基准,以更全面、真实地评估E2E-AD系统的性能。
在这里插入图片描述
CARLA是闭环端到端自动驾驶(E2E-AD)评估中最广泛使用的模拟器之一。在其框架下,已经建立了诸如Town05Long和Longest6等基准测试,这些测试包含多条路线,要求自动驾驶系统(AD系统)在特定的时间限制内安全完成。然而,这些基准测试仅评估了诸如车道保持、转弯、避障和遵守交通信号灯等基本技能[29, 30],未能检验AD系统在复杂且交互式的交通环境下的驾驶能力。最新的CARLA排行榜v2引入了39个挑战性场景,旨在评估AD系统在更复杂情况下的鲁棒性。尽管如此,官方评估路线长度在7至10公里之间,且充满了各种场景,这对AD系统构成了巨大挑战,往往难以完美完成,如**图2(a)**所示。因此,由于驾驶分数指标采用了指数衰减函数,使得有效比较不同的AD系统变得具有挑战性,因为它们的得分往往非常低。例如,在当前的排行榜v21中,参与方法的得分低于100分中的10分。此外,现有方法通常自行收集数据,这使得在算法层面进行公平比较变得不可行。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
为了解决自动驾驶(AD)系统评估中面临的上述挑战,开发一个能够细致且公平地评估其能力的新基准至关重要。为此,我们推出了 Bench2Drive ,这是一个旨在全面、真实且公平地评估端到端自动驾驶(E2E-AD)系统的闭环环境新基准。Bench2Drive 拥有一个由最先进的专家模型Think2Drive收集的官方训练数据集 ,该数据集包含200万帧完全标注的图像,这些图像来源于13638个视频片段。它 涵盖了44种不同的交互式场景,如切入、超车、绕行等,这些场景发生在不同的天气条件和城镇环境中,从繁忙城市中心的晴天到古色古香村庄中的雾天应有尽有。评估协议包括 220条短路线每条路线长度仅约150米且只包含一个特定场景。这样,对单项技能的评估就是独立的,从而能够对44种不同技能集中的自动驾驶系统熟练程度进行详细比较。此外,每条路线的简短性减轻了指数衰减函数对驾驶分数的影响,使得能够更准确、更有意义地比较不同系统之间的性能。这样一个结构化和有针对性的基准,将更清晰地揭示每个自动驾驶系统的优缺点,从而能够实现有针对性的改进和更精细的技术开发。
在这里插入图片描述
综上所述,所提出的Bench2Drive基准具有以下特点:
• 全面覆盖各种场景:Bench2Drive旨在测试自动驾驶系统(AD系统)在44种交互式场景中的表现,提供对复杂情境下能力的全面评估。
• 细致的技能评估:通过构建包含220条短路线的评估体系,每条路线专注于一个特定的驾驶场景,Bench2Drive能够详细分析和比较不同AD系统在单个任务上的表现。
• 闭环评估协议:Bench2Drive以闭环方式评估AD系统,其中AD系统的动作直接影响环境。这种设置能够准确评估AD系统的驾驶性能。
• 多样化的大规模官方训练数据:Bench2Drive包含一个标准化的训练集,该训练集包含来自13638个视频片段的200万帧完全标注的图像,这些图像涵盖了多种场景、天气和城镇条件。这确保了所有AD系统都在丰富且相似的条件下进行训练,这对于算法层面的公平比较至关重要。
在这里插入图片描述
这些特点使Bench2Drive成为自动驾驶领域的开创性基准,为研究人员提供了一个在现实、全面和公平的环境中优化和评估其端到端自动驾驶(E2E-AD)系统的关键工具。我们在 Bench2Drive上实施了几个经典基线,包括 TCP、ThinkTwice、DriveAdapter、UniAD、VAD和AD-MLP,并对它们进行了评估。我们确认了L2误差等开环指标无法反映实际驾驶性能的事实。对于经典的闭环指标——驾驶分数,我们发现它缺乏细节,且其严厉的惩罚措施鼓励了过于保守的驾驶策略,而Bench2Drive则提供了对不同方法能力的全面理解。

2 Related Work

2.1 Planning Benchmarks

在这里插入图片描述
在这里插入图片描述
自动驾驶领域的基准测试已经从专门的数据集(如用于感知的KITTI ,用于行为预测的NGSIM/highD 、BARK )发展到综合形式的数据集,如nuScenes 、Argoverse 和Waymo ,这些数据集促进了对各种协同系统组件的评估。最近,基于学习方法的规划能力评估已成为一个研究热点[37–41]。在 表1中,我们比较了规划基准。虽然nuScenes 提供了开环指标,但由于缺乏闭环模拟,它受到了无法充分评估规划能力的批评[23, 24, 19]。此外,其验证集存在不平衡问题,有很大一部分(75%)的场景仅要求直线驾驶,因此无法充分挑战自动驾驶系统(AD系统)在复杂环境中的决策能力。nuPlan 和Waymax 提供了闭环评估,但仅限于边界框级别的评估,不包括传感器模拟,因此不适合端到端自动驾驶(E2E-AD)方法。Longest6 是CARLA排行榜V1的修改版,仅评估基本技能,如车道保持、转弯、避碰和交通信号灯识别。CARLA排行榜V2 缺少专家演示数据。正如社区广泛讨论的那样[42, 43],缺少官方训练集使得不同方法的比较停留在系统层面而非算法层面。Bench2Drive通过提供大规模、标注丰富的官方训练数据集以及多能力评估集来解决这些不足。这使得能够对自动驾驶系统的驾驶能力进行更细致、更有信息量的评估,克服了现有基准测试依赖所有路线的平均得分作为主要性能指标的限制。

2.2 End-to-End Autonomous Driving

在这里插入图片描述
端到端自动驾驶(E2E-AD)的概念可以追溯到20世纪80年代。近年来,神经网络,尤其是Transformer的出现,展示了缩放定律的强大力量,这重新激发了人们对E2E-AD的热情[46–50]。然而,它们要么仅以开环方式进行评估[51, 4, 22, 52],要么在相对简单的场景(如Town05Long/Longest6)中进行评估[53, 54, 42, 55–60]。Bench2Drive提供了一个具有挑战性和全面性的平台,用于比较E2E-AD方法的能力。

3 Bench2Drive

在这里插入图片描述
Bench2Drive由在CARLA中收集的大规模、完全标注的数据集(作为官方训练集)、用于细致驾驶技能评估的评估工具包,以及针对训练数据集和评估工具包定制的几种最先进的端到端自动驾驶(E2E-AD)方法实现组成。所有数据、代码和检查点均在GitHub和Huggingface上以Apache License 2.0发布。我们将在下一节中详细介绍。

3.1 Data Collection Agent

在这里插入图片描述
数据采集代理(专家)负责收集数据,以便学生模型可以从这些数据中学习在真实世界中,这通常由人类来完成,比如驾驶汽车在城市中穿梭,就像KITTI、nuScenes、Waymo和Argoverse等数据集的制作过程一样。然而,这需要大量的人力。在模拟环境中,有一个廉价的替代品——教师模型教师模型会使用真实世界中无法获得的信息(称为特权信息),例如周围代理的真实位置、状态和意图,以及交通信号灯的真实状态等。因此,使用CARLA的人要么编写规则[43, 61],要么训练一个强化学习(RL)模型[50, 31],以利用这些特权信息在模拟环境中进行驾驶
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在本工作中,我们使用基于世界模型的强化学习教师——Think2Drive在CARLA中进行导航和数据收集,因为它是唯一一个能够在构建Bench2Drive时解决所有44个场景的专家模型。值得注意的是,在Bench2Drive发布后,基于规则的专家模型PDM-Lite2也开源了,用户可以根据自己的需求进行使用。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值