港科最新!DSDrive:基于统一推理和规划的轻量端到端自动驾驶大语言模型~

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享香港科技大学最新的工作!如何用大模型蒸馏车端模型? DSDrive给你答案!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『多模态大模型』技术交流群

论文作者 | Wenru Liu等

编辑 | 自动驾驶之心

写在前面 && 笔者理解

近两年,端到端的技术方案,已经较为成熟,而恰好大语言模型的发展也十分迅速。二者的结合也正在如火如荼地被研究。本质上,LLMs有效地解决了传统E2E AD框架的局限性,即缺乏对驾驶任务的真正理解和可解释性。这是因为LLMs通过其认知处理能力和语言生成能力提供了有吸引力的解决方案。前者使驾驶任务能够进行细致的情境推理,而后者促进了自然的人机交互界面。

然而部署基于LLM的AD框架仍然具有挑战性。大规模语言模型的计算需求在实时决策中造成了巨大的瓶颈,这对关键规划功能的内存和处理延迟施加了巨大的限制。尽管缩小模型规模提供了基础,但当前的研究表明,LLMs的能力通常与模型规模相关,这意味着直接使用轻量架构可能会损害安全自动驾驶所需的基本认知功能。

知识蒸馏已被证明在调和模型规模和能力方面的差异方面是有效的。然而,它并没有解决LLMs提供的高级别文本推理与AVs所需的低级别轨迹规划之间的固有差异。尽管LLMs在语义推理方面表现出色,但它们并未针对AD中轨迹规划所必需的数值计算和空间推理任务进行优化。这种不匹配导致大多数现有的基于LLM的AD研究依赖于 open-loop 评测。将基于LLM的E2E AD框架转变为闭环规划对于实际AD部署是很重要的。

在本文中,作者提出了一个全新的轻量级E2E AD框架,以解决计算效率和推理与规划脱节的挑战。该框架利用轻量的LLMs实现与更大系统一样的推理和规划性能。作者的方法基于两个关键策略:首先,作者利用蒸馏方法增强轻量LLM作为AD系统的核心。这涉及到通过 chain-of-thought(CoT)提示过程将视觉大语言模型(VLM)的推理能力外部化。作者生成了明确捕获思考和回答推理的结构化数据集,从而将基础模型的推理技能转移到专用系统。作者提出了一种基于航点驱动的双头协调模块,以适当对齐推理和规划任务。该模块涉及训练数据集的共同设计,确保两个任务基于同质数据。它创新性地将规划结果作为推理过程的最终答案,从而为两个任务建立统一的优化目标。两个任务在E2E框架内联合训练,同时优化推理答案的质量和航点预测的准确性。通过将这些任务相互关联,作者的框架支持具有明确推理的闭环AD,从而增强了自主系统的可解释性和可靠性。作者的相关贡献总结如下:

  1. 提出了DSDrive,这是一种轻量级E2E AD框架,利用轻量LLM处理多模态输入以实现明确推理和闭环规划。具体来说,作者利用知识蒸馏使轻量LLM能够承担推理和规划任务,从而提高其整体性能。

  2. 提出了一个新颖的基于航点驱动的双头协调模块,该模块弥合了高级别推理和低级别轨迹规划之间的差距。通过将航点集成到明确推理过程中,作者为两个任务建立了统一目标,并促进它们共同朝着总体驾驶目标前进。

  3. 在CARLA中实现闭环仿真,以展示知识蒸馏和双头协调模块的有效性。所提出的DSDrive实现了与更大基准模型相当的驾驶性能,并且在几个关键指标上甚至超越了它们,特别是在计算效率方面。

论文题目: DSDrive: Distilling Large Language Model for Lightweight End-to-End Autonomous Driving with Unified Reasoning and Planning

论文链接:https://arxiv.org/pdf/2505.05360

相关工作回顾

端到端自动驾驶

E2E AD框架的一个动机是开发一种统一的方法,将感知、决策和规划任务集成在一起,通过联合优化整个流程来实现最终的驾驶性能。STP3推进了空间-时间特征学习,以统一多个驾驶任务的场景理解。在此基础上,UniAD建立了一个集成框架,协同感知和预测模块以增强规划能力。架构创新继续重塑系统设计,旨在通过更丰富的技能推进E2E AD框架。DriveTransformer通过具有稀疏表示的并行处理架构实现统一的任务交互,提高了操作稳定性。受认知机制的启发,级联决策框架纳入了多阶段安全验证以改进行动细化。互补方法包括以规划为中心的协调系统和基于视觉的多智能体协作模型,通过跨车辆感知增强紧急响应。ReasonNet实现了层次化推理架构,以改进场景理解和交通参与者行为预测。研究界同时探索了推动E2E AD框架极限的替代范式。VAD研究了矢量化场景表示,以减少运动规划中的地图依赖性,而其后续版本VADv2引入了概率规划策略和环境令牌化,以增强不确定性处理能力。尽管有这些创新,E2E方法的一个基本限制是缺乏结构化推理机制,无法将复杂场景分解为逻辑决策路径。这一缺点可以从两个角度归因。首先,传统的深度学习网络不具备进行复杂推理或解释的内在能力。其次,系统学习全面理解所需的推理模式通常在训练数据中缺失。推理能力的获取不能依赖于仅仅扩大神经网络模型和数据的规模。因此,需要范式转变,即在模型架构和训练数据中整合结构化推理机制,以解决当前E2E管道在AD中的局限性。

自动驾驶中的大语言模型

将LLMs集成到E2E AD框架中在环境推理和决策方面可以获得一些进展。为了解决E2E AD的可解释性挑战,RAG-Driver采用了检索增强的多模态LLMs,以生成人类可理解的驾驶行为解释,同时保持精确的控制信号预测,在不熟悉的环境中展示了显著的零样本泛化能力。在规划优化方面,AlphaDrive结合了基于GRPO的强化学习和推理策略,以提高训练效率和多模态规划能力。PRIMEDrive-CoT通过结合贝叶斯图神经网络和CoT推理推进了安全关键决策,并采用视觉注意力机制以提高风险评估的透明度。GPT-Driver探索了使用ChatGPT-3.5进行自然语言命令解释的人机交互范式,用于轨迹规划场景。最近在将LLMs集成到AD系统中的进展产生了几个值得注意的框架。DriveLM开创了一种多模态融合架构,通过CoT提示将语言推理与传感器输入对齐。VLP采用视觉-语言预训练以增强场景理解。WiseAD引入了知识蒸馏,将LLMs的知识压缩到轻量级策略网络中。Sce2DriveX提出了一个场景感知的编码器-解码器框架,以提高在不同驾驶条件下的泛化能力。LMDrive开发了一种具有时空令牌化的E2E架构,用于轨迹预测,但其设计中缺乏明确的推理机制。如表I所示,尽管这些方法通过改进感知和推理中的多模态对齐在开环评估中取得了进展,但它们共同未能充分解决闭环驾驶场景的问题。闭环驾驶要求对齐推理和规划任务,并对计算资源提出了更严格的要求。这一限制强调了开发E2E AD系统的迫切需求,该系统能够协调轻量级LLM部署与强大的闭环规划能力。

方法论

推理模型

作者的方法使用两种输入类型:图像   和文本  。图像输入表示为序列  ,其中   为序列长度,  和   分别表示高度、宽度和通道数。文本输入细分为导航指令和问题。

从高层次来看,VLM 在推理模型中的应用过程可定义为:

其中   代表 VLM,通过处理视觉和文本输入生成答案  。为了实现从 VLM 到驾驶模型的推理能力蒸馏,作者确保 VLM 处理驾驶图像序列并生成与驾驶模型输入结构对齐的多维度分析。

具体而言,作者采用最先进的开源 VLM Qwen2.5-VL-max 生成关于场景理解、关键物体识别和驾驶决策的结构化推理数据集。由于 Qwen2.5-VL-max 是通用 VLM,作者通过结构化思维链(CoT)策略优化其对自动驾驶的专项能力,具体考虑以下方面:

  1. 场景理解:通过分析天气、时间、道路类型和路况等元素把握驾驶环境。

  2. 关键物体描述:通过名称、位置、特征及其对自车操作的潜在风险详细描述关键物体。

  3. 战略驾驶计划制定:制定经过深思熟虑的驾驶计划以有效应对场景。

  4. 人类可理解的解释生成:为驾驶决策和行动生成可理解的解释。

目前,VLM 主要提供以高层推理为核心。然而,自动驾驶的规划任务通常涉及轨迹规划中的路径点预测和后续车辆控制。通用 VLM 在精确预测路径点方面存在显著挑战,主要因其空间定位能力较弱。因此,需要额外策略来弥合抽象推理与具体规划任务之间的鸿沟。作者创新性地利用真实路径点(ground-truth waypoints)将推理过程与规划任务连接,强调分步思考后生成最终答案。这种数据集设计通过显式表达推理步骤避免答案捷径。在作者的工作中,通过将真实路径点嵌入思维链过程,规划任务被无缝整合为推理过程的自然结果。

图 1 总结了利用推理模型构建训练数据集的流程。完整的 VLM 提示定义为 

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值