基于VLM的快慢双系统自动驾驶 - DriveVLM解析~

最新推荐文章于 2025-08-11 12:53:32 发布

转载最新推荐文章于 2025-08-11 12:53:32 发布 · 226 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247669431&idx=2&sn=c9225b3f5c413467dcc15df9ff1fb9d1&chksm=cf544aa1623980488e54bb8548ac5f141a056148d47f48337f133b5306e7effa33cb03eb1373&scene=126&sessionid=0

文章标签：

#自动驾驶 #人工智能 #机器学习

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

近一年来，大模型的发展突飞猛进，大模型应用于各个下游任务的工作也层出不穷，今天和为大家分享清华&理想将大模型应用在自动驾驶领域的一次尝试与探索，也是去年理想快慢双系统（E2E+VLM）的核心算法，利用大模型强大的few-shot能力，期望解决实际驾驶场景中的长尾问题，提升自动驾驶系统的认知和推理能力。

DriveVLM主要的出发点来自于目前业界自动驾驶遇到的实际困难，随着智能驾驶逐渐从 L2 往 L4 迭代，在实际场景中遇到了各种各样的长尾问题。这些长尾问题随着数据驱动的方式会逐渐收敛一些，这也是目前业界主流的思路和方法，期待通过数据驱动的方式逐渐毕竟 L4；但是大家随着研究的深入发现，真实场景中的长尾问题是无穷无尽的，只是 case by case 的数据驱动几乎无法进化到真正的 L4 无人驾驶。因此，工业界和学术界需要进一步思考自动驾驶的下一代方案。

基于此DriveVLM主要有以下几个创新点：

Chain-of-Though (CoT) ：场景描述、场景分析与分层规划；
DriveVLM-Dual(快慢双系统)：DriveVLM-Dual可选地将DriveVLM与传统模块集成在一起，并部署至理想汽车上，实现了实时规划，且有效提升了空间推理能力；
提出了一种全面的数据挖掘与标注流程，构建Corner Case的数据集SUP-AD。

而数据集构建可以说是这篇工作最核心的内容，主要聚集自动驾驶场景关心的五个维度，下面一一展开介绍：

评测主要使用预训练LLM进行结构化评估：

总结下DriveVLM数据机构件的pipeline：

模型与训练总结：

本文内容均出下自动驾驶之心的多模态大模型课程，课程从通用多模态大模型，到大模型微调，最终在聚焦在端到端自动驾驶多模态大模型，基本上面试的东西课程里面都有介绍。课程大纲如下：

扫码学习课程

课程内容一览

第一章：多模态大模型介绍

第一章主要介绍多模态大模型的基础概念，在整体上帮助同学们了解多模态大模型，打开大模型之路的大门。老师从多模态算法的概念出发，延伸到多模态大模型的结构&训练范式及公开数据集的介绍。在整体上对多模态大模型有一定了解后，我们会进一步聊聊实际的应用场景，让大家对未来可能从事的工作方向和工作内容有一定的了解，最后老师会介绍咱们课程的整体框架及预期的实战学习成果。

第二章：多模态大模型的基础模块

第二章正式进入多模态大模型的基础模块学习。老师会首先介绍多模态大模型的整体架构。模态编码器是什么？Input Projector有什么作用？LLM Backbone是什么？Output Projector又用来做什么？最后的Modality Generator又如何应用到具体的模态生成？在这一章都会得到解答！

第三章：通用多模态大模型

第三章聚焦于通用多模态大模型的讲解与实战。作为多模态大模型下游应用的基石，可以说没有通用多模态大模型的蓬勃发展，就不会有当下大模型应用百花齐放的局面。这一章节老师选取了五个算法展开详细介绍：涵盖了图文理解、视频理解、任意模态、轻量大模型以及实战-统一视觉任务大模型算法，即兼顾了学术界又兼顾了学术界。这一章老师将会带领同学们真正进入多模态大模型的世界。

实际效果：

第四章：多模态大模型微调与强化学习

第四章则聚焦于业内应用最广泛的微调与强化学习技术。如果把通用多模态大模型比作大树的枝干，那么微调技术则是大模型开枝散叶的核心技术。这一章老师首先会做一个训练策略的概述，微调到底微调个啥？接下来则会进入六篇论文的精讲和实战，涉及Adapter、LoRA、QLoRA、Reward Model+PPO、KTO和实战算法DPO，这一章仍会兼顾学术界和工业界，学完这一章，你将有能力训练面向特定业务需求的多模态大模型。