LMDrive: 基于大语言模型的闭环端到端自动驾驶

最新推荐文章于 2025-05-28 09:58:38 发布

原创

最新推荐文章于 2025-05-28 09:58:38 发布 · 2.4k 阅读

51 ·

CC 4.0 BY-SA版权

文章标签：

#语言模型 #人工智能 #自动驾驶

0. 资源链接

论文: LMDrive: Closed-Loop End-to-End Driving with Large Language Models
项目: https://hao-shao.com/projects/lmdrive.html

1. 背景动机

现有的自动驾驶方法存在以下问题：

适用场景局限：对常见的简单场景有效，但在长尾事件和城市复杂场景时存在挑战，易导致严重事故
交互理解局限：依赖于有限格式的输入（如传感器数据和导航航点），缺乏理解语言及与人类互动的能力
闭环评估缺失：先前研究大多针对特定模块进行开环评估，缺乏闭环评测（如累积误差、人机交互和实际执行效果等）

不过近两年大语言模型的突飞猛进为提升自动驾驶性能提供了新的可能性：

大语言模型在自然语言理解能力的提升，为系统与人类的高效交互、协作及能力互补上开辟了新的可能性
大语言模型已展现出较强的知识推理能力，能够学习并处理复杂场景中涉及逻辑推断的感知/决策等问题

2. 内容提要

提出基于语言模型的端到端闭环框架LMDrive，能够协同处理多种传感器数据（多视角图像、点云等）和语言指令
提供包含64k个分段的数据集（基于 CARLA 模拟器），每段数据除了有多种传感器数据、控制信号外，还有对应的导航指令、提示指令等
提出LangAuto

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AI-Seeker

关注关注

41
点赞
踩
51

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大语言模型驱动的自动驾驶：LMDrive/DriveVLM-Dual 的未来展望与挑战

专注于Python爬虫开发，分享爬虫技巧、项目实战与反爬经验，使用Scrapy、BeautifulSoup等工具，解决数据抓取难题。

09-01

703

大语言模型（LLM）正推动自动驾驶技术进入新阶段。LMDrive和DriveVLM-Dual等创新系统融合自然语言处理与传统自动驾驶技术，实现更智能的决策和交互。LMDrive侧重语言指令处理，DriveVLM-Dual则结合视觉与语言理解增强环境感知。其优势包括智能化决策、灵活适应性及高效的视觉-语言融合。未来有望推动跨模态学习、提升情境理解能力并革新人机交互方式。但面临数据训练、安全性、算法复杂度等挑战。这些突破将重塑交通行业，带来更智能、安全的驾驶体验。

大语言模型的自动驾驶 LMDrive/DriveVLM-Dual

最新发布

qq_35661896的博客

08-24

1606

创新点: 提出首个语言引导的闭环端到端驾驶框架LMDrive，整合多模态传感器数据和自然语言指令核心功能: 实时处理"Turn right at next intersection"等导航指令和"Watch for walkers up front"等注意指令问题背景: 现有自动驾驶系统在长尾突发事件和复杂城市场景中表现不佳，缺乏语言理解和人机交互能力数据集贡献: 公开包含64K指令跟随数据片段的数据集和LangAuto基准测试。

参与评论您还未登录，请先登录后发表或查看评论

LMDrive: 大语言模型加持的闭环端到端自动驾驶框架

Paper weekly

12-26

1663

引言▲图1.LMDrive 框架功能概览图说明：LMDrive 接收语言指令和多模态多视角的传感器数据作为输入，并实时输出决策控制信号，以应对各种各样复杂的驾驶场景。大语言模型（Large Language Model，LLM）可谓是 2023 年最火热也最重要的人工智能子领域，在各类机器学习任务中都展现出了惊艳的效果，相关的上下游应用也都发展得十分迅速。而将大语言模型应用在自动驾驶领域也有一...

【亲测免费】 LMDrive：基于大型语言模型的闭环端到端自动驾驶框架

gitblog_01084的博客

10-10

1036

LMDrive 是一个创新的端到端、闭环、基于语言的自动驾驶框架，通过多模态多视角传感器数据和自然语言指令与动态环境进行交互。该项目由 OpenDILab 社区开发，旨在通过大型语言模型（LLM）实现更智能、更灵活的自动驾驶系统。LMDrive 不仅能够处理复杂的驾驶场景，还能通过自然语言指令与人类驾驶员进行交互，提供更加人性化的驾驶体验。 ## 项目技术分析 LMDrive 项目的技术架构主...

标题：探索未来驾驶体验：LMDrive - 语言引导的全栈式自动驾驶框架

gitblog_00020的博客

05-08

465

在当今快速发展的智能交通领域中，自动驾驶技术正逐步从理论走向现实，为我们的出行带来革命性的改变。其中，LMDrive是一个创新的端到端、闭环、语言驱动的自动驾驶框架，它通过多模态多视图传感器数据和自然语言指令与动态环境交互，开启了全新的智能驾驶篇章。 **1、项目介绍** LMDrive是由一支来自顶尖研究机构的团队研发的开源项目，旨在构建一个能够理解并执行自然语言指令的自动驾驶系统。通过整合...

LMDrive: Closed-Loop End-to-End Driving with Large Language Models

Talk is cheap, show me the code!

02-16

1687

第一个利用LLM实现闭环端到端自动驾驶的工作

端到端自动驾驶VLM模型：LMDrive: Closed-Loop End-to-End Driving with Large Language Models

a8598671的博客

03-28

1512

一方面，目前自动驾驶领域取得了显著进展，但在遇到长尾场景或复杂城市路况时，当前的自动驾驶方法仍容易失效甚至导致严重事故。另一方面，大语言模型（LLMs）展现出了接近“通用人工智能”的推理能力。因此，利用大语言模型所具备的“人类知识”帮助自动驾驶应对长尾问题，提升端到端模型的可解释性，并与导航和驾驶员进行互动成为端到端自动驾驶研究的热点。论文提出 LMDrive —— 一个新颖的、语言引导的、端到端、闭环自动驾驶框架。

DriveMoE: 基于MoE的端到端自动驾驶SOTA VLA模型

AIgraphX

05-28

1403

上海交通大学提出了自动驾驶模型DriveMoE，通过混合专家架构MoE实现性能突破。该模型包含两大核心模块：1）场景专用视觉MoE，动态选择关键摄像头视角，减少冗余计算；2）技能专用动作MoE，针对不同驾驶行为激活专业化专家模块。

端到端自动驾驶主要玩家

自动驾驶实战

08-12

1608

2024年5月20日，小鹏汽车举办AIDay发布会，董事长、CEO何小鹏宣布端到端大模型上车。小鹏的端到端大模型有三个组成部分：神经网络XNet+控大模型XPlanner+大语言模型XBrain。小鹏汽车在发布会上表示，端到端大模型上车后，18个月内小鹏智能驾驶能力将提高30倍，每2天内部将做次智驾模型的送代。2024年4月24日，华为智能汽车解决方案发布会上，华为发布了以智能驾驶为核心的全新智能汽车解决方案品牌一一乾崑，并发布了并发布了ADS3.0。乾崑ADS3.0的技术架构，感知部分采用GOD（Gene

CVPR 2024论文分享┆LMDrive：基于大模型的闭环端到端自动驾驶

audyxiao001的博客

08-22

2350

本文介绍了一篇CVPR 2024的一篇经典论文《LMDrive: Closed-Loop End-to-End Driving with Large Language Models》。该论文提出了一种语言引导的闭环自动驾驶框架LMDrive

LMDrive 端到端闭环自动驾驶框架

m0_74626628的博客

08-05

658

LMDrive，一种新颖的语言引导的端到端闭环自动驾驶框架。LMDrive独特地处理和整合多模态传感器数据与自然语言指令，使车辆能够在现实的指令设置中与人类和导航软件进行交互。2）一个大型语言模型及其相关组件（分词器、Q-Former和适配器），它们接收视觉标记和语言指令，以预测控制信号以及判断给定指令是否完成。1）一个视觉编码器，用于处理多视图多模态传感器数据（相机和激光雷达），进行场景理解并生成视觉标记；

驶向『闭环』| LMDrive：首篇基于LLM的闭环端到端自动驾驶

CV_Autobot的博客

02-15

486

点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取>>点击进入→自动驾驶之心【端到端自动驾驶】技术交流群论文作者| 汽车人编辑 | 自动驾驶之心写在前面&笔者的个人理解汽车人这两天在arxiv上看到了港中文MMLab&商汤的一篇关于闭环自动驾驶的工作，结合了大语言模型。不幸汤老师于12月15日与世长辞，R.I.P.尽管自动驾驶领域最近取得了重大进展，...

LMDrive大语言模型加持的自动驾驶闭环系统原理与复现过程记录

hooksten的博客

03-17

1903

本环境使用的carla_leaderboard 1.0 ，使用的carla版本是0.9.10.1。此时,export CARLA_ROOT=carla才能链接到这里,所以最后的sh修改为。这里面有很多是ros的依赖项,所以不能直接去安装,请对照一下关键的python依赖就好。安装完后创建一个虚拟环境，官方使用的3.8，支持torch cuda的版本。这里需要提供三个模型,vision,llm和lmdrive模型。请自行下载模型,下载有问题的可以找我.直接下载x86的sh，然后运行。这两个模型和我的大模型。

LMDrive 项目使用教程

gitblog_00162的博客

10-11

660

LMDrive 项目的目录结构如下： ``` LMDrive/ ├── assets/ ├── data_collection/ ├── dataset/ ├── langauto/ ├── leaderboard/ ├── results/ ├── scenario_runner/ ├── tools/ ├── vision_encoder/ ├── LICENSE ├── README.md...

自动驾驶的同学看过来：DriveLM：世界首个语言+自动驾驶全栈开源数据集

xuxu96

11-02

1935

如下图所示，DriveLM提供了从物体识别、物体运动状态判断到物体未来运动轨迹预测、自车运动规划的完整逻辑链条，确保了整个决策过程中每一步的合理性和可解释性。数据集中的问答对主要可以分为三类：感知（Perception）、预测（Prediction）和规划（Planning）。预测部分询问车辆或行人的未来可能行为和状态；DriveLM：世界首个语言+自动驾驶全栈开源数据集，旨在借助大语言模型和海量自然语言数据集，构筑复杂场景下安全、精准、可解释的自动驾驶系统，突破现有自动驾驶推理能力上限，数据集已开源！

探索自动驾驶的未来：DriveLM——连接语言与驾驶的创新开源项目

gitblog_00055的博客

05-24

677

在人工智能领域中，自动驾驶正逐渐成为最重要的前沿之一。而今天，我们向您推介一个突破性的开源项目——DriveLM，这是一个集语言理解、场景感知和智能规划于一体的自动驾驶数据集。该项目旨在将大型语言模型的能力引入到自动驾驶系统中，推动汽车行业的智能化与可解释性。 ## 项目介绍 DriveLM 是一项创新工程，它以语言为桥梁，构建了一个涵盖感知、预测和规划（P3）的综合测试平台。借助这个平台，我...

LMDrive: 采用大语言模型的闭环端到端自动驾驶

yorkhunter的博客

06-12

1233

23年12月来自香港中文大学、商汤科技、InnoHK 感知交互智能中心、多伦多大学和上海AI实验室的论文“LMDrive: Closed-Loop End-to-End Driving with Large Language Models“。

驶向『闭环』| LMDrive：首篇基于LLM的闭环端到端自动驾驶（MMLab&商汤）

CV_Autobot的博客

12-18

1004

开环端到端自动驾驶：从入门到放弃

CV_Autobot的博客

12-02

1493

作者|木子士心王大可编辑|汽车人原文链接：https://zhuanlan.zhihu.com/p/669454065点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取点击进入→自动驾驶之心【端到端自动驾驶】技术交流群本文只做学术分享，如有侵权，联系删文TLDR: 别在nuScenes上做开环端到端自动驾驶刷点了。前言UniAD[1]获得CVPR Best Paper ...

端到端自动驾驶大模型思路

03-28

### 端到端自动驾驶大模型的设计思路 端到端自动驾驶大模型旨在通过单一神经网络完成从传感器数据输入到车辆控制输出的全过程，减少中间的人工干预和模块划分。这种设计能够显著提升系统的效率和鲁棒性。以下是关于端到端自动驾驶大模型设计的一些核心要点： #### 设计原则 端到端自动驾驶模型遵循整体优化的原则，将传统的感知、预测、规划和控制等多个独立模块融合为一个统一的整体。例如，在2023年8月，小马智行推出了一种新的端到端自动驾驶模型，该模型不仅适用于L4级别的高度自动化驾驶场景，还可以降级用于L2级别辅助驾驶系统[^1]。 #### 核心架构 端到端智能驾驶的感知部分是整个系统的关键环节之一，它负责处理来自摄像头、激光雷达和其他传感器的数据，并将其转化为结构化的环境表示。这些表示可以包括但不限于目标检测、语义分割以及三维场景重建等内容。相比于传统分立式的功能分解方式，现代端到端感知模型利用深度学习技术实现了特征提取至最终决策之间的全链条自动操作过程[^2]。 #### 具体实现案例分析——LMDrive 在最新的研究进展方面，《CVPR 2024》上发表的一篇名为《LMDrive：基于大模型的闭环端到端自动驾驶》的文章介绍了如何构建一种高效的端到端自驾车解决方案。文章中的表格显示了一系列针对不同组件所做的消融测试结果表明每一个组成部分对于整体表现都至关重要不可缺失任何一个部件都会导致性能下降情况发生[^3]。另外一篇文献探讨了以路径规划为核心的另一种类型的端到端框架。在这个例子当中引入了一个叫做“命令嵌入”的概念来帮助解决缺乏精确地图信息条件下仍需执行复杂任务的需求。具体来说就是把初始导航指令转换成了三个可训练向量形式即所谓的‘命令嵌入’，它们与代表自我车俩当前状况的信息共同组建成一个新的查询对象—我们称之为“计划查询”，这个新形成的查询会进一步作用于鸟瞰视角下的空间特性之上从而推导出未来轨迹点位置坐标序列[^4]。 ```python class EndToEndAutonomousDrivingModel(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim): super(EndToEndAutonomousDrivingModel, self).__init__() self.perception = nn.Sequential( nn.Conv2d(input_dim, hidden_dim, kernel_size=3), nn.ReLU(), ... ) self.planning_query = nn.Embedding(num_embeddings=3, embedding_dim=hidden_dim) self.decoder = nn.Linear(hidden_dim, output_dim) def forward(self, sensor_data, command_embedding_index): features = self.perception(sensor_data) planning_query = self.planning_query(command_embedding_index).unsqueeze(-1).unsqueeze(-1) combined_features = torch.cat([features, planning_query], dim=-1) waypoints = self.decoder(combined_features.flatten(start_dim=1)) return waypoints ``` 上述代码片段展示了一个简化版的端到端自动驾驶模型类定义，其中包含了感知层、命令嵌入生成器以及最后的解码器三大部分。 ---