论文解读之港科PLUTO：首次超越Rule-Based的规划器！

转载于 2025-09-16 07:31:09 发布 · 178 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247679336&idx=2&sn=3387b4c55cddeb486f99f7fb6396fafb&chksm=cff0b0b3b0bb5dc553a899c2bb44a2a4549b4f73fb01418f70a544505d5bb58218074367045e&scene=126&sessionid=0

在端到端自动驾驶领域，这篇文章是一个典型的“两段式网络架构”中的Planner模型，而且它不是基于BEV feature map进行下游控制任务的，而是直接对于感知输出的结构化的信息（bbox，lanes等等）进行编码，并作为sequence token输入到decoder中，今天就为大家分享一下。二段式端到端非常适合新人练手：

我们先整体上看一下PLUTO有哪些关键点：

为了帮助大家理解，网络架构图上我们做了详细的模块注释：

PLUTO主要有三个损失，主任务的损失包含回归损失和分类损失，共同组成模仿学习的损失。而Agent轨迹预测的损失如下图所示：

同时，PLUTO也添加了几个辅助的损失帮助模型收敛：

本文均出自平台最新推出的『端到端与VLA自动驾驶小班课』，我们联合国内TOP主机厂算法专家共同打造！技术专家带你深入端到端与VLA算法原理与技术开发，目前已经正式开课！

技术栈多？入门困难？

去年我们推出了《首个面向工业级的端到端算法与实战教程》，今年很多小伙伴反馈技术发展太快了，先前的技术方案已经不适合当下的大环境。端到端目前发展出多个领域技术的方向，需要掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等相关的知识。学习端到端自动驾驶，是一个一站式强化多领域知识的好机会。但这样的学习路径往往非常痛苦。同时掌握多个领域的知识已经足够困难，而各领域的论文数量繁多、知识碎片化，入门者往往还没了解各个领域就已然放弃。如何从零散论文中提炼框架、掌握领域发展趋势，是初学者的常见挑战。同时学习目标驱动导航需要结合实际任务完成闭环，但缺乏系统的实战指导，难以从理论过渡到实践。另一方面，端到端自动驾驶的研究由于缺少高质量文档，提高了入门难度。

优惠即将截止！扫码学习课程

基于这些学习过程中的挑战，我们联合业内大佬一起打造了国内最新的《端到端与VLA自动驾驶小班课》！这门课程具有以下特点：

1）直击痛点，快速入门

本课程基于Just-in-Time Learning理念，通过通俗易懂的语言和案例，帮助学员短时间内掌握核心技术栈。理解关键概念后，拓展特定领域知识将变得更加轻松。

2）构建领域框架，提升研究能力

帮助学员梳理端到端自动驾驶的研究发展脉络，掌握领域核心框架。学会将论文分类、提取创新点，形成自己的研究体系和工作经验。

3）理论结合实践，学以致用

课程配有实战环节，完成从理论到实践的完整闭环。

课程大纲如下：

这门课程讲如何展开

第一章：端到端算法介绍

第一章主要是针对端到端自动驾驶概括性的内容讲解，这一章老师会带大家盘一下端到端的发展历史，端到端这个概念是怎么来了，为什么从模块化的方法发展到端到端。一段式、二段式再到现在的VLA范式，每一种范式都有哪些优缺点，能解决什么问题，现在为什么要学习端到端。学术界和工业界都在做什么，相关的数据集、评测都有啥。在这一章节为大家一一解答~

第二章：端到端的背景知识

承接第一章的讲解，端到端的技术栈分类有很多种，那必然也涉及到很多不同的背景知识。VLA涉及大语言模型、扩散模型及强化学习、一段式端到端涉及BEV感知。因此第二章是咱们课程的重点内容，在这一章老师会非常细致的带大家学习端到端涉及到的背景知识，也为后续章节的展开奠定基础。

首先老师会带大家复习下Transformer的基本概念，扩展到视觉Transformer，接着讲解为多模态大模型奠定基础的CLIP和LLAVA；
接着详细介绍BEV感知的基础知识，自动驾驶涉及的核心感知为什么可以基于BEV来实现（3D检测/车道线/OCC/轨迹预测与规划）；
之后是扩散模型的理论知识讲解，当前基于扩散模型输出多模轨迹也是学术界和工业界追捧的热点，很多公司都在尝试落地；
然后是视觉大语言模型VLM相关的强化学习技术，RLHF是什么，为什么VLM训练需要用到RLHF以及上半年最热的GRPO，在第二章都会带大家一起学习。

总结来说，第二章的内容是未来两年求职面试频率最高的技术关键词！

第三章：二段式端到端

第三章聚焦在二段式端到端，我们首先回答一个问题：什么是二段式端到端？为什么会出现二段式端到端？接着老师会带大家学习下领域内优秀的工作：经典算法PLUTO、CVPR'25的CarPlanner和最新的工作Plan-R1。兼顾经典工作和最新的前沿进展为大家解读二段式端到端的究竟在做什么？相比一段式端到端，二段式端到端有什么优缺点。

第四章：一段式端到端与VLA

第四章是咱们课程最精华的部分。一段式端到端目前有很多子领域：基于感知的一段式（UniAD）、基于世界模型的一段式、基于扩散模型的一段式以及目前最热的基于VLA的一段式。每个子领域都是为了解决端到端的终极目标。

考虑到有刚入门的小伙伴，所以我们先从基于感知的方法讲起：领域的奠基制作UniAD和地平线VAD会和大家一起快速的过一遍，接着讲解CVPR'24中稿的PARA-Drive；

接着是基于世界模型的两篇优秀工作：AAAI'25的Drive-OccWorld以及复旦团队提出的OccLLaMA。和大家聊聊为什么要讲基于世界模型的相关方法：世界模型的应用非常广，不仅可以做场景生成，也可以做端到端，还可以做闭环仿真。所以世界模型也是近两年非常热的技术方向，通过这两篇文章的学习也是为了让大家更好的了解端到端的技术发展脉络，为从事端到端研究的小伙伴提供一些思考；

然后是基于扩散模型的端到端方法：从去年下半年开始，扩散模型的思想就被引入到多模轨迹预测中，相比单模轨迹的输出，多模轨迹可以更好的适应自动驾驶不确定的环境！扩散模型不仅可以和基于模型的方法结合，也可以和VLM相结合进而实现VLA，所以这个小节我们重点介绍几篇在业内应用最广的工作：DiffusionDrive、Diffusion Planner和吉大最新的DiffE2E，这个小节也会有配套的实战讲解 - Diffusion Planner，相信很多今年求职的小伙伴都会用到；

最后是基于VLA的端到端方法：随着大模型的飞速发展，业内很多公司都在预研新一代自动驾驶量产方案 - VLA。学术界和工业界都在发力，可以说VLA是目前端到端自动驾驶的皇冠！VLA的上限很高但也很难，也正是因为如此，业内的招聘需求也最旺盛。我们选取了小米的ORION、慕尼黑工大的OpenDriveVLA和近期最新的ReCogDrive。这一小节涉及非常多的技术：VLM、BEV、扩散模型、强化学习，所以也是基于前面几章的学习最后展开这一小节的学习。老师选择了小米的ORION作为实战，截止2025年7月，ORION开源了推理和评测模块，这个实战将为大家揭开自动驾驶VLA的神秘面纱~

第五章：课程大作业 - RLHF微调

经过前面几个章节的学习，同学们已经对端到端自动驾驶的各个子领域有一定了解，并且可以实际运行代码了。在大作业部分，老师选择了RLHF微调进行实战。预训练模块如何搭建、强化学习模块如何搭建并如何实际进行实验，这个章节将会提供参考答案和实际的效果展示。并且RLHF是可以迁移到VLA相关算法中的，具有非常好的延展性~