上交&卡尔动力FastDrive!结构化标签实现端到端大模型更快更强~

作者 | Hao Jiang 来源 | 深蓝AI

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

本文只做学术分享,如有侵权,联系删文

引言

最近将类人的推理能力融入到端到端自动驾驶系统中已经成为了一个前沿的研究领域。其中,基于视觉语言模型的方法已经吸引了来自工业界和学术界的广泛关注。

论文标题:Structured Labeling Enables Faster Vision-Language Models for End-to-End Autonomous Driving

论文作者:Hao Jiang, Chuan Hu, Yukang Shi, Yuan He, Ke Wang, Xi Zhang, Zhipeng Zhang

论文链接:https://www.arxiv.org/pdf/2506.05442


现有的VLM训练范式严重依赖带有自由格式的文本标注数据集,如图1(a)所示。虽然这些描述能够捕捉丰富的语义信息,但由于两种结构不同但是表达相近的句子会增加模型在学习任务中的复杂性和计算开销,导致模型无法专注核心的推理任务。此外,由于语言描述中还会存在冗余的信息,这对于自动驾驶系统的下游决策过程带来不必要的认知负荷。

图1:不同VLM算法模型训练范式比较

此外,现有的一些基准模型通常依赖于大规模的语言模型,这些模型通常包含超过70亿个参数,甚至更多以实现多模态对齐和推理。虽然超大参数VLM可能在各种基准测试中取得不错的性能,但同时存在高昂的计算成本、内存消耗和推理延迟等问题。

针对上述提到的相关问题,本文提出了一个结构化、简洁的数据集NuScenes-S,其源自于NuScenes数据集。此外,本文提出了一种紧凑的VLM基线模型,称之为FastDrive,专门为小规模参数的端到端自动驾驶方案而设计。FastDrive 通过采用思维链式过程来模拟人类驾驶员的推理策略,执行场景理解、感知、预测和决策任务,从而实现与端到端自动驾驶框架的有效结合。

本文的主要贡献如下:

  • 本文引入一个结构化的数据集,该数据集关注与驾驶决策密切相关的关键要素,从而消除冗余信息,解决自由格式文本注释中同义表达的局限性,并提高推理效率。

  • 本文提出了一个具有0.9B参数的紧凑型VLM基线模型,它模仿人类驾驶员的推理策略,并实现了与端到端自动驾驶框架的有效对齐。

  • 本文针对NuScenes-S和FastDrive进行了全面的评估和广泛的实验。结果证明所提出的数据集和模型的有效性,并在NuScenes-S数据集上取得了具有竞争力的性能。


1

NuScenes结构化数据集

  场景描述

本文提出的NuScenes-S数据集中的场景描述旨在提供更全面的驾驶场景视图,解决许多现有数据集中经常被忽视或表示不足的问题。NuScenes-S中的场景描述结构清晰、简洁,包含以下关键元素:天气、交通状况、驾驶区域、交通灯、交通标志、道路状况、车道线、时间。其相关的具体细节如下所示:

  • 天气:天气条件包含晴天、雨天、雪天、雾天以及多云

  • 交通状况:交通状况包括低、中等

  • 驾驶区域:驾驶区域包括交叉路口、枢纽、环岛、住宅区、人行横道、停车场

  • 交通灯:交通灯包括绿灯、红灯和黄灯

  • 交通标志:交通标志包括速度限制、停车、让行、禁止停车、禁止调头、禁止左转、禁止右转、禁止超车、单行线

  • 道路状况:道路状况包括光滑、粗糙、潮湿、结冰,施工

  • 车道线:车道线包括右转、左转、直行、直行右转、直行左转、掉头、左转调头、右转调头

  • 时间:时间包括白天和夜间

  感知和预测

识别一些关键目标并预测其未来的状态对于驾驶员的决策至关重要。NuScenes-S数据集中的感知和预测任务结构如下: 

目标:摄像头、2D边界框,未来状态。

  • 相机视角:相机视角包括前向、前左、前右、后向、后左、后右

  • 2D边界框:2D边界框包含两个对角线的坐标

  • 未来状态:未来状态包括直行、左转、右转、轻微左转、轻微右转、停止、怠速

  决策

根据感知和预测任务做出决策是驾驶员安全驾驶的最后也是关键的一步。NuScenes-S数据集中的决策任务结构如下:

  • 决策:横向移动、纵向移动

  • 横向移动:横向移动包括左转、右转、轻微左转、轻微右转、直行

  • 纵向移动:加速、减速、巡航、怠速

  数据集的构建

数据集的整体构建过程如图2所示。具体来说,在场景描述方面,本文首先通过GPT和人工对场景信息进行标注,然后比较GPT和人工标注的结果,找出差异,并由人工标注对标注进行细化。在感知和预测任务中,本文首先定义一些规则来提取关键目标,然后使用VLM和人工同步对关键目标进行标注。最后,基于规则和人工注释对决策任务进行注释,以获得初始注释,然后由人工注释通过比较优化进一步完善。

图2:NuScenes-S数据集的整体构建过程

最后得到的NuScene-S数据集的样例如图3所示。

图3:NuScenes-S数据集用例示意图

2

FastDrive算法模型

本文提出的FastDrive算法模型的整体网络结构如图4所示。通过网络结构图可以看出,其整体遵循"ViT-Adapter-LLM"的架构范式。

图4:FastDrive端到端算法模型的整体网络结构图

  视觉编码器模块

视觉编码器的主干网络是Vision Transformer,提取输入环视图像的视觉特征,并利用多层感知机投影到LLM的特征空间。本文还引入了可选的TokenPacker模块减少标记的数量,进而提高推理速度。

  LLM代理

本文中的LLM在FastDrive算法模型中起到大脑的角色,并且选用的是Qwen2.5。它以视觉编码器的视觉特征和结构化语言指令作为输入,生成场景描述,识别关键物体,预测其未来状态,并以思维链的方式做出驾驶决策。

3

实验

本文的实验在NuScenes-S数据集上进行,该数据集包含了102K个问答对。整个数据集被拆分成了84K个训练问答对和18K个测试问答对。评估指标包括语言指标、平均精度、召回率和决策准确率。

图5展示了本文的算法模型在场景理解方面的性能。实验结果表明,FastDrive在结构化基准数据集上取得了有竞争力的性能。

图5:在NuScenes-S数据上的场景理解性能

图6展示了不同算法模型在感知、预测以及决策任务上的性能对比,实验结果可以看出,FastDrive在预测和决策规划任务上实现了最佳的性能。

图6:在NuScenes-S数据集上感知、预测、决策任务性能

此外,本文也进行了相关的消融实验来验证提出的场景标注的有效性,如图7所示。

图7:场景标注对于驾驶决策的消融实验

本文为了更加直观的展示消融实验的效果,将模型的预测内容进行了可视化输出,如图8所示。

图8:消融实验部分的样例说明

4

结论

本文引入了一个结构化的自动驾驶基准数据集NuScenes-S,它在感知、预测和决策任务中遵循类人的推理过程。此外,本文还提出了FastDrive,一个用于端到端的自动驾驶模型,在NuScenes-S数据集上取得了具有竞争力的性能,推理速度更快,参数更少。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

本项目通过STM32F103C8T6单片机最小系统,连接正点原子ESP8266 WiFi模块,将模块设置为Station模式,并与电脑连接到同一个WiFi网络。随后,STM32F103C8T6单片机将数据发送到电脑所在的IP地址。 功能概述 硬件连接: STM32F103C8T6单片机与正点原子ESP8266 WiFi模块通过串口连接。 ESP8266模块通过WiFi连接到电脑所在的WiFi网络。 软件配置: 在STM32F103C8T6上配置串口通信,用于与ESP8266模块进行数据交互。 通过AT指令将ESP8266模块设置为Station模式,并连接到指定的WiFi网络。 配置STM32F103C8T6单片机,使其能够通过ESP8266模块向电脑发送数据。 数据发送: STM32F103C8T6单片机通过串口向ESP8266模块发送数据。 ESP8266模块将接收到的数据通过WiFi发送到电脑所在的IP地址。 使用说明 硬件准备: 准备STM32F103C8T6单片机最小系统板。 准备正点原子ESP8266 WiFi模块。 将STM32F103C8T6单片机与ESP8266模块通过串口连接。 软件准备: 下载并安装STM32开发环境(如Keil、STM32CubeIDE等)。 下载本项目提供的源代码,并导入到开发环境中。 配置与编译: 根据实际需求配置WiFi网络名称和密码。 配置电脑的IP地址,确保与ESP8266模块在同一网络中。 编译并下载程序到STM32F103C8T6单片机。 运行与测试: 将STM32F103C8T6单片机与ESP8266模块上电。 在电脑上打开网络调试工具(如Wireshark、网络调试助手等),监听指定端口。 观察电脑是否接收到来自STM32F103C8T6单片机发送的数据。
在电子测量技术中,示波装置扮演着观测电信号形态的关键角色。然而,市售标准示波器往往定价较高,使得资源有限的入门者或教学环境难以配备。为此,可采用基于51系列微控制器的简易示波方案进行替代。该方案虽在性能上不及专业设备,但已能满足基础教学与常规电路检测的需求。下文将系统阐述该装置的主要构成模块及其运行机制。 本装置以51系列单片机作为中央处理核心,承担信号数据的运算与管理任务。该单片机属于8位微控制器家族,在嵌入式应用领域使用广泛。其控制程序可采用C语言进行开发,得益于C语言在嵌入式编程中的高效性与适应性,它成为实现该功能的合适选择。 波形显示部分采用了由ST7565控制器驱动的128×64点阵液晶模块。ST7565是一款图形液晶驱动芯片,支持多种像素规格的显示输出;此处所指的12864即表示屏幕具有128列、64行的像素阵列。该屏幕能以图形方式实时绘制信号曲线,从而提供直观的观测界面。 在模拟至数字信号转换环节,系统集成了TLC0820型模数转换芯片。该芯片具备8位分辨率及双输入通道,最高采样速率可达每秒10万次。这样的转换速度对于捕获快速变动的信号波形具有重要意义。 实现该示波装置需综合运用嵌入式软硬件技术。开发者需掌握51单片机的指令系统与编程方法,熟悉ST7565控制器的显示驱动配置,并能对TLC0820芯片进行正确的采样编程。此外,还需设计相应的模拟前端电路,包括信号调理、放大与滤波等部分,以确保输入ADC的信号质量满足测量要求。 通过C语言编写的控制程序,可完成系统各模块的初始化、数据采集、数值处理以及图形化显示等完整流程。开发过程中需借助调试工具对代码进行验证,保证程序执行的正确性与稳定性。 应当指出,受限于51系列单片机的运算能力与资源,该自制装置的功能相对基础,例如难以实现多通道同步测量、高级触发模式或高容量波形存储等复杂特性。尽管如此,对于绝大多数基础电子实验与教学演示而言,其性能已足够适用。 综上所述,结合51单片机、ST7565液晶控制器与TLC0820转换芯片,可以构建出一套成本低廉、结构清晰的简易示波系统。该装置不仅可作为电子爱好者、在校学生及教师的有益实践平台,帮助理解示波测量的基本原理,还能通过动手组装与调试过程,深化对电路分析与嵌入式系统设计的认识。 资源来源于网络分享,仅用于学习交流使用,请勿用于商业,如有侵权请联系我删除!
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值