助力量产!DriveCoT:全面的开环端到端驾驶数据集和Benchmark

文章介绍了DriveCoT,一个端到端自动驾驶数据集,包含了传感器数据、控制决策和chain-of-thought标签,旨在提高驾驶决策的可解释性和性能。研究者通过CARLA模拟器创建了挑战性驾驶场景,并提出基于规则的专家策略,以及DriveCoT-Agent模型,展示了解决方案的效能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心端到端自动驾驶技术交流群

论文作者 | 自动驾驶Daily

编辑 | 自动驾驶之心

近年来,端到端自动驾驶技术取得了显著进展,表现出系统简单性和在开环和闭环设置下竞争性驾驶性能的优势。然而,端到端驾驶系统在驾驶决策方面缺乏可解释性和可控性,这阻碍了其在真实世界中的部署。本文利用CARLA模拟器收集了一个全面的端到端驾驶数据集,名为DriveCoT。它包含传感器数据、控制决策和chain-of-thought标签,用于指示推理过程。利用CARLA排行榜2.0中具有挑战性的驾驶场景,这些场景涉及高速驾驶和换道,并提出了一个基于规则的专家策略来控制车辆,并为其推理过程和最终决策生成了真值标签,覆盖了不同驾驶方面和最终决策的推理过程。该数据集可以作为一个开环端到端驾驶基准,可评估各种推理方面的准确性和最终决策。此外,我们提出了一个名为DriveCoT-Agent的基线模型,它是在我们的数据集上训练的,用于生成推理链预测和最终决策。经过训练的模型在开环和闭环评估中表现出很强的性能,证明了我们提出的数据集的有效性。

题目:DriveCoT: Integrating Chain-of-Thought Reasoning with End-to-End Driving

作者单位:香港大学,华为,香港中文大学

开源地址:DriveCoT

DriveCoT,它包括一个新的数据集、基准和端到端自动驾驶的基线模型。传感器数据,如相机图像以及指示方向的目标点(左图像中的黄点),作为模型输入。如下右图所示,该模型通过生成不同驾驶方面的预测并进行chain-of-thought推理来获得最终的速度决策。此外,模型还生成了计划的未来转向点(左图中的蓝点)。

6e0e30f3cc59d99428c5a8d1e0d38282.png

DriveCoT Agent的基线模型将过去一段时间的多视点摄像机视频和指示方向的目标点作为输入,以生成关于不同驾驶方面和计划的未来路线点的CoT预测。没有使用单帧图像作为输入,而是利用多视图摄像机视频来捕捉自车和周围物体的运动,从而能够早期预测潜在危险并支持高速驾驶。此外,最终的驾驶决策可以通过图8所示的过程从模型的chain-of-thought预测中得出。除了可解释性之外,训练后的模型在DriveCoT验证数据的开环评估和闭环测试基准方面都显著优于以前的方法。

5d13eb1b7a7ea81e39ec51ad9ff58807.png

DriveCoT Dataset

使用CARLA 0.9.14版本收集数据,并修改了提出的基于规则的专家政策,以适应高速驾驶和更具挑战性的场景。此外,使用一组跨越城市、住宅、农村和高速公路区域的预定义路线来执行专家政策,并在遇到许多具有挑战性的场景时驾驶自车。对于每个场景,数据收集在预定义的触发点启动,并在超过20秒的模拟时间或达到下一个场景的触发点时停止。

DriveCoT数据集包括1058个场景和36K个标记样本,以2Hz频率收集,每个场景平均17秒。分别以70%、15%和15%的比例将数据集划分为训练集、验证集和测试集,得到25.3K的训练样本、5.5K的验证样本和5.5K的测试样本。为了防止数据泄露,将同一场景中的所有数据分配给同一集合。此外,确保CoT方面在所有拆分中的分布是相似的。

d61af1d3e2e4f4b5335ba3094ebdc40a.png

专家策略

本文提出了一种基于规则的专家政策,该政策可以访问模拟器,经过有效的修改,使其适用于leaderborad2.0中的高速驾驶。根据自车速度为自车设计动态制动距离,以检测潜在的危险,包括红绿灯、停车标志或周围的车辆和行人。此外,拟议的专家政策还考虑了与同一车道上前方车辆的关系,以产生更微妙的速度决策。对于计划的未来航路点,收集具有固定距离间隔的专家航路点,类似于Transuser++,而不是固定时间间隔,以将航路点与目标速度区分开来。此外,当自车速度增加以避免振荡时,计划的路点被选择得离自车更远。

在DriveCoT中,根据场景组织收集的数据。每个场景都有一个元文件,指示场景类型、天气状况和一天中的时间。每个帧样本可以根据文件名与特定场景相关联,每帧包含来自六个1600×900 RGB相机和一个32线激光雷达传感器的传感器数据,以及专家政策的决策过程标签和文本形式和简化分类形式的最终决策。如图8所示,CoT方面包括检查红绿灯危险、停车标志危险、与周围物体的潜在碰撞、与前方车辆的关系等。

10256714a3be5ac2959c022b6864263f.png

DriveCoT-Agent

所提出的基线模型DriveCoT Agent。它将多视图相机视频作为输入,并通过共享的视频SwinTransformer为每个视图提取视频特征。然后,通过变换器编码器融合不同视图的视频标记。对于不同的chain-of-thought driving aspects,为不同的任务定义了单独的可学习查询。这包括碰撞预测、红绿灯识别、停车标志、路口和前方车辆状态预测。此外,路径GRU将相关解码器输出与其他导航信息一起用于生成用于引导的计划路线点。

2468ba1c2d0e472c0c62bc04c8bce158.png

实验结果

DriveCoT数据集val split的开环评估。以前的方法只能提取二进制速度决策(正常驾驶或制动)。与以前的方法相比,所提出的DriveCoT Agent可以预测更精确、更详细的速度决策和转向路线点。

1b4b813885fc6ca12494e069f586e0bc.png

更多消融实验:

5e62fd759c3b84e6f767af0ad6646917.png 39224fc069601af9cd57731833578e7e.png

DriveCoT Agent的定性结果。它正确地为(a)车道交通工具、(b)红色交通灯和行人以及(c)道路中间的过街行人刹车。图像中的黄点是目标点,表示方向,而蓝点和绿点表示地面实况和预测的未来路线点。在(d)中,DriveCoT Agent根据嵌入视频输入中的碰撞距离和时间信息,生成与前方车辆有关的适当速度决策!

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

38155e3766fce9979697c3ecc7376609.png 网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近2700人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

94c9552e1d3ee83640947d4252727b1f.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦2D/3D目标检测、语义分割、车道线检测、目标跟踪、BEV感知、多模态感知、Occupancy、多传感器融合、transformer、大模型、在线地图、点云处理、端到端自动驾驶、SLAM与高精地图、深度估计、轨迹预测、NeRF、Gaussian Splatting、规划控制、模型部署落地、cuda加速、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

02be20980d69e3ff909f18b7aa29f29c.jpeg

④【自动驾驶之心】平台矩阵,欢迎联系我们!

b57d0c742a0a0cf2f3b1b9ce19f23629.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值