LMDrive: 基于大语言模型的闭环端到端自动驾驶

0. 资源链接

1. 背景动机

现有的自动驾驶方法存在以下问题:

  • 适用场景局限:对常见的简单场景有效,但在长尾事件和城市复杂场景时存在挑战,易导致严重事故

  • 交互理解局限:依赖于有限格式的输入(如传感器数据和导航航点),缺乏理解语言及与人类互动的能力

  • 闭环评估缺失:先前研究大多针对特定模块进行开环评估,缺乏闭环评测(如累积误差、人机交互和实际执行效果等)

不过近两年大语言模型的突飞猛进为提升自动驾驶性能提供了新的可能性:

  • 大语言模型在自然语言理解能力的提升,为系统与人类的高效交互、协作及能力互补上开辟了新的可能性

  • 大语言模型已展现出较强的知识推理能力,能够学习并处理复杂场景中涉及逻辑推断的感知/决策等问题

2. 内容提要

  • 提出基于语言模型的端到端闭环框架LMDrive,能够协同处理多种传感器数据(多视角图像、点云等)和语言指令

  • 提供包含64k个分段的数据集(基于 CARLA 模拟器),每段数据除了有多种传感器数据、控制信号外,还有对应的导航指令、提示指令等

  • 提出LangAuto

### 端到端自动驾驶大模型的设计思路 端到端自动驾驶大模型旨在通过单一神经网络完成从传感器数据输入到车辆控制输出的全过程,减少中间的人工干预和模块划分。这种设计能够显著提升系统的效率和鲁棒性。以下是关于端到端自动驾驶大模型设计的一些核心要点: #### 设计原则 端到端自动驾驶模型遵循整体优化的原则,将传统的感知、预测、规划和控制等多个独立模块融合为一个统一的整体。例如,在2023年8月,小马智行推出了一种新的端到端自动驾驶模型,该模型不仅适用于L4级别的高度自动化驾驶场景,还可以降级用于L2级别辅助驾驶系统[^1]。 #### 核心架构 端到端智能驾驶的感知部分是整个系统的关键环节之一,它负责处理来自摄像头、激光雷达和其他传感器的数据,并将其转化为结构化的环境表示。这些表示可以包括但不限于目标检测、语义分割以及三维场景重建等内容。相比于传统分立式的功能分解方式,现代端到端感知模型利用深度学习技术实现了特征提取至最终决策之间的全链条自动操作过程[^2]。 #### 具体实现案例分析——LMDrive 在最新的研究进展方面,《CVPR 2024》上发表的一篇名为《LMDrive:基于大模型的闭环端到端自动驾驶》的文章介绍了如何构建一种高效的端到端自驾车解决方案。文章中的表格显示了一系列针对不同组件所做的消融测试结果表明每一个组成部分对于整体表现都至关重要不可缺失任何一个部件都会导致性能下降情况发生[^3]。 另外一篇文献探讨了以路径规划为核心的另一种类型的端到端框架。在这个例子当中引入了一个叫做“命令嵌入”的概念来帮助解决缺乏精确地图信息条件下仍需执行复杂任务的需求。具体来说就是把初始导航指令转换成了三个可训练向量形式即所谓的‘命令嵌入’,它们与代表自我车俩当前状况的信息共同组建成一个新的查询对象—我们称之为“计划查询”,这个新形成的查询会进一步作用于鸟瞰视角下的空间特性之上从而推导出未来轨迹点位置坐标序列[^4]。 ```python class EndToEndAutonomousDrivingModel(nn.Module): def __init__(self, input_dim, hidden_dim, output_dim): super(EndToEndAutonomousDrivingModel, self).__init__() self.perception = nn.Sequential( nn.Conv2d(input_dim, hidden_dim, kernel_size=3), nn.ReLU(), ... ) self.planning_query = nn.Embedding(num_embeddings=3, embedding_dim=hidden_dim) self.decoder = nn.Linear(hidden_dim, output_dim) def forward(self, sensor_data, command_embedding_index): features = self.perception(sensor_data) planning_query = self.planning_query(command_embedding_index).unsqueeze(-1).unsqueeze(-1) combined_features = torch.cat([features, planning_query], dim=-1) waypoints = self.decoder(combined_features.flatten(start_dim=1)) return waypoints ``` 上述代码片段展示了一个简化版的端到端自动驾驶模型类定义,其中包含了感知层、命令嵌入生成器以及最后的解码器三大部分。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值