VLA的Action到底是个啥?谈谈Diffusion:从图像生成到端到端轨迹规划~

扩散模型在自动驾驶领域的应用解析

点击下方卡片,关注“自动驾驶Daily”公众号

戳我-> 领取近15个自动驾驶方向路线

一、扩散模型原理

扩散模型Diffusion Models是一种生成式模型,本质是去噪,噪音符合某种特定分布。其原理基于对数据分布的学习和模拟,主要包括正向扩散过程和反向生成过程。

其名字来源于一滴墨水滴进清水,以随机运动的方式弥散到清水乃至于彻底消融。

扩散模型学习这个弥散过程,目的是把融化进清水(纯噪音)里面的墨水(原始数据)恢复出来。

模型训练好后,给定一杯滴了墨水的清水,变魔术一般恢复出原始的墨水。这里的魔术只是某种学习了分布规律的神经网络。

正向扩散过程

从初始数据分布(如真实图像分布)开始,逐步向数据中添加噪声,这个过程遵循一个马尔可夫链。在每一步,根据前一步的状态和一个固定的噪声分布,生成下一个更具噪声的数据点。随着时间步的增加,数据逐渐变得更像噪声,最终达到一个近似纯噪声分布。

反向生成过程

从纯噪声开始,通过学习一个逆过程来逐步去除噪声,以恢复出原始数据。这个逆过程通过神经网络来参数化,网络的目标是根据当前带噪声的数据点和时间步,预测出前一个时间步的更接近原始数据的点。在训练过程中,通过最大化似然估计或其他损失函数来调整神经网络的参数,使得模型能够逐渐学会从噪声中生成真实的数据样本。

扩散模型通过正向扩散过程来定义数据的噪声化过程,然后通过反向生成过程来学习如何从噪声中恢复数据,从而实现对数据分布的建模和生成新的数据样本。

图 正向-反向diffusion过程,图片来自网络

马尔可夫链(Markov Chain)是一种具有马尔可夫性(无记忆性)的随机过程,描述系统在状态空间中随时间转移的规律。其核心特征是:未来状态的概率仅依赖于当前状态,与历史状态无关。所以马尔科夫性这个性质其实是个人为简化。

过程

公式

说明

正向单步

正向多步

累积噪声的线性组合

反向单步

神经网络预测噪声驱动去噪,ϵ′ 为随机噪声

损失函数

最小化预测噪声与真实噪声的均方差

扩散模型扩散过程每一层的概率分布类型通常是一样的,只是参数不一样。

在常见的扩散模型中,比如基于高斯分布假设的扩散模型,每一层(时间步)的条件概率分布通常都被建模为高斯分布。虽然不同层的均值和方差等参数会根据扩散过程而变化,但分布类型保持一致,这样的设定有助于模型的数学推导和计算。当然,也有一些扩散模型可能会采用其他类型的分布,如拉普拉斯分布等,在这种情况下,模型各层也会基于相同类型的分布来构建。

扩散模型(Diffusion Models)通常结合多种类型的神经网络来实现核心功能,包括去噪过程建模、概率分布学习和多尺度特征提取。其最常用的神经网络类型是u-net:

图  U-net架构图,来自网络

U-Net作为最核心架构,其结构特点完全是对称的,直观讲就是两个卷积神经网络尾对尾嫁接在一起。

编码器 - 解码器架构:编码器:通过卷积层逐步降低特征图分辨率,提取高层语义信息(如物体形状、纹理)。

解码器:通过上采样和跳跃连接恢复分辨率,将高层语义与低层细节结合。

跳跃连接:缓解深层网络的梯度消失问题,增强细节恢复能力。

其在扩散模型中的作用是作为去噪核心,功能是输入带噪声的图像和时间步长(表示噪声强度),输出去噪后的图像或预测噪声。

图像生成模型如 DALL-E 2、Stable Diffusion 均以U-Net 为骨干网络。

作为U-net的核心创新的跳跃连接,其思想非常类似resnet的残差链接,直接越过多层叠加。其操作是将编码器特征图Fi和解码器特征图Gj沿通道维度拼接,生成新的特征图 H。示例代码如下:

前沿的更迭速度很快,有没有一个专业的技术社区一直follow学术界的前沿研究和工业界的量产落地?带着这个想法,我们打造了『自动驾驶之心知识星球』。我们为大家准备了大额新人优惠...

大额新人优惠!欢迎扫码加入~

二、扩散模型和生成对抗网络的对比

生成对抗网络(Generative Adversarial Networks,GANs) 是一种深度学习模型,由 生成器(Generator)和判别器(Discriminator)组成,通过两者的对抗博弈来学习数据分布并生成新样本。它于2014年由 Ian Goodfellow(就是人工智能花书的作者)等人提出,已广泛应用于图像生成、视频合成、数据增强等领域。

生成对抗网络和扩散模型都存在加噪和去噪过程,目的都是去噪。从输入输出角度看,二者有一定的可替换性。

目前并无文献表明二者谁更优。也有文献使用生成对抗网络来做自动驾驶的长尾场景生成。

生成对抗网络是在生成器的输入中加入噪声,可以使生成器更灵活地探索潜在空间,从而生成更加多样化的样本。

具体实现步骤如下:

  • 在生成器的输入向量 ( z ) 中加入噪声。

  • 噪声通常是从一个简单的分布(如标准正态分布 ( N(0, 1) ) 或均匀分布 ( U(-a, a) ))采样得到的。

图 生成对抗网络的加噪过程,来自网络

生成对抗网络(GAN)在自动驾驶领域的应用几乎和扩散模型重合,主要涵盖数据生成、场景仿真、感知增强和决策优化等方面。比如SurfelGAN(Google)利用激光雷达和摄像头数据生成逼真的相机图像,用于自动驾驶仿真模型训练。

扩散模型像"考古修复"(从碎片还原文物),GAN像"造假大师"(不断改进伪造技术)。

维度

扩散模型

生成对抗网络(GANs)

核心机制

基于正向扩散与逆向去噪的概率建模

基于生成器与判别器的对抗博弈

训练方式

非对抗训练,仅需优化单一神经网络

对抗训练,需同时优化生成器和判别器

稳定性

训练更稳定,不易出现模式崩溃

训练难度高,易因梯度消失或模式崩溃失败

样本质量

生成图像通常更清晰、多样性更强(尤其高分辨率)

早期 GANs 在高分辨率下可能出现模糊,需改进架构(如 StyleGAN)

计算成本

训练和生成需多步迭代,计算复杂度高

生成阶段仅需单次前向传播,速度快

理论基础

基于热力学扩散过程和变分推断

基于博弈论和概率分布匹配

数学工具

随机微分方程(SDE)、马尔可夫链

概率分布散度(如 JS 散度、Wasserstein 距离)

目前看扩散模型似乎比生成对抗网络更受欢迎,一个原因是生成对抗网络需要训练至少两个神经网络:生成器和判别器,计算量很大,训练好的模型体积也大。

但是生成对抗网络也有优势,就是其加噪过程往往融合多种分布类型的噪音,叠加的噪音更复杂;而不像基于马尔可夫链加噪的扩散模型,噪音分布类型在一般情况下不变,只是变化分布参数。

三、扩散模型在自动驾驶领域的应用

扩散模型由于其去噪的本质,在自动驾驶领域的应用主要集中在数据生成、场景预测、感知增强和路径规划等方面。需要说明,扩散模型不仅可以用来对连续分布噪音进行去噪,也可以对离散分布噪音(和数据)去噪,所以它也可以用于离散问题,比如决策规划。

以下是具体的应用场景和技术优势:

1. 合成数据生成

扩散模型能够生成高度逼真的驾驶场景数据,解决真实数据不足或标注成本高的问题。

罕见场景生成,如极端天气(暴雨、大雾)、突发障碍物(行人横穿、车辆逆行)等,提升模型的泛化能力。

而且这种生成是可控的,通过条件控制(如BEV布局、3D标注)生成特定场景,例如NuScenes和KITTI数据集的扩展。

比如SynDiff-AD,基于潜在扩散模型的数据生成pipeline,显著提升模型在低光照、极端天气等条件下的性能。

2. 场景预测与视频生成

扩散模型可用于预测未来驾驶场景的动态变化,

包括多模态预测,也就是生成可能的交通参与者行为(如车辆变道、行人轨迹),支持决策系统。还有视频生成,比如DriveGenVLM结合视觉语言模型(VLMs)生成真实驾驶视频,用于仿真测试。

3. 感知任务优化

扩散模型在感知任务中可去除噪声并增强数据质量:

BEV去噪:利用扩散模型清理鸟瞰图(BEV)中的噪声,提升目标检测精度。

多传感器融合:生成一致的雷达与摄像头数据,改善感知鲁棒性。

4. 路径规划与决策

扩散模型通过概率建模支持多模态路径生成:

Diffusion Planner:清华AIR团队提出的规划算法,利用扩散模型的引导机制适应复杂路况,提升安全性和泛化能力。

实时端到端控制:DiffusionDrive通过截断扩散步骤实现实时决策,直接从人类驾驶数据学习。

其中所谓截断扩散就是跳跃性地去噪,本来去噪要像加噪过程一样经过多步打磨,现在则是直接越过几步,去噪时通过采样来模拟多步加噪的叠加分布,至于越过几步为好则是调参的艺术。

5. 端到端自动驾驶

扩散模型直接学习驾驶策略,简化传统模块化流程。

比如动作分布建模,也就是处理多模式驾驶行为(如避障或变道),避免传统方法的单一输出限制。

6. 小众应用

除了直接用于自动驾驶的扩散模型,还可以用于优化算法(也就是求最大或最小值),从而间接服务于自动驾驶。

自动驾驶有许多最小化优化问题,比如最小能量消耗路径,在商用车重卡领域用的非常多。其目标函数是:

其中F函数式车辆在速度vi下的单位距离能耗。

而Diffusion-ES(Diffusion Evolution Strategy) 是一种将扩散模型(Diffusion Model)与进化策略(Evolution Strategy, ES)相结合的优化算法,旨在利用扩散模型强大的生成能力和进化策略的全局搜索能力,高效求解复杂优化问题,比如上面的最小能量消耗路径求解。

技术优势总结

应用方向

技术优势

典型案例

合成数据生成

解决数据稀缺,支持可控生成

SynDiff-AD 、ControlNet

场景预测

多模态未来帧生成,动态适应性

DriveGenVLM

感知优化

BEV去噪、多传感器一致性

BEV-Guided Diffusion

路径规划

多模态路径生成,高泛化能力

Diffusion Planner

端到端控制

实时性高,直接学习人类策略

DiffusionDrive

四、总结

扩散模型在自动驾驶中的应用仍处于快速发展阶段,未来可能与BEV、大语言模型(LLMs)进一步结合,推动全栈技术革新。

业界和学术多有基于扩散模型的技术方案,本文更偏重企业方案,列举三个:

毫末智行在2025 年 1 月 28 日,毫末智行联合清华大学 AIR 智能产业研究院等机构在 ICLR 2025 上发布了 Diffusion Planner。该算法基于 Diffusion Transformer,能高效处理复杂场景输入,联合建模周车运动预测与自车规划中的多模态驾驶行为。通过扩散模型强大的数据分布拟合能力,精准捕捉复杂场景中周车与自车的多模态驾驶行为,实现周车预测与自车规划的联合建模。在大规模真实数据集 nuPlan 的闭环评估中取得 SOTA 级表现,大幅降低了对后处理的依赖,并在 200 小时物流小车数据上验证了多种驾驶风格下的鲁棒性和迁移能力。目前,毫末团队已进入实车测试阶段,率先实现端到端方案在末端物流自动配送场景的应用落地。

地平线与香港大学等团队提出了 HE - Drive,这是首个以类人驾驶为核心的端到端自动驾驶系统。该系统利用稀疏感知技术生成三维空间表示,作为条件输入到基于条件去噪扩散概率模型(DDPM)的运动规划器中,生成具备时间一致性的多模态轨迹。然后,基于视觉语言模型引导的轨迹评分器从候选轨迹中选择最舒适的轨迹来控制车辆。HE - Drive 在 nuScenes 和 OpenScene 数据集上实现了 SOTA 性能和效率,同时在真实世界数据中提供了更舒适的驾驶体验。

理想汽车在 2025 年推出的下一代自动驾驶架构 MindVLA,整合了空间智能、语言智能和行为智能。该技术基于端到端和 VLM 双系统架构,通过 3D 空间编码器和逻辑推理生成合理的驾驶决策,并利用扩散模型优化驾驶轨迹。MindVLA 采用 3D 高斯作为中间表征,利用海量数据进行自监督训练,其 LLM 基座模型采用 MoE 混合专家架构和稀疏注意力技术。通过 Diffusion 模型将动作词元解码为优化轨迹,并结合自车行为生成和他车轨迹预测,提升复杂交通环境中的博弈能力。

最后,本文列举一个有代表意义的学术方案。

在2024年机器人顶会 CoRL 上,《One Model to Drift Them All: Physics-Informed Conditional Diffusion Model for Driving at the Limits》一文的作者们Franck Djeumou等提出利用包含多种车辆在多样环境下行驶轨迹的未标记数据集,训练一个高性能车辆控制的条件扩散模型。条件扩散模型(Conditional Diffusion Models, CDMs)是一类基于扩散过程的生成模型,在生成过程中引入了额外的条件信息,从而能够生成更为符合特定需求的样本,例如生成符合特定文本描述、类别标签或其他先验信息的图像。

这里的drift就是头文字D里面的飘移,在极限情况下的飘移动作(横向滑动),该模型能通过基于物理信息的数据驱动动态模型的参数多模态分布,捕捉复杂数据集中的轨迹分布。通过将在线测量数据作为生成过程的条件,将扩散模型融入实时模型预测控制框架中,用于极限驾驶。据报道,在丰田 Supra 和雷克萨斯 LC 500 上的实验表明,单一扩散模型可使两辆车在不同路况下使用不同轮胎时实现可靠的自动漂移,在对未知条件的泛化方面优于专家模型。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程

端到端自动驾驶大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网:www.zdjszx.com

<think>嗯,用户想了解Diffusion VLA的技术原理和应用。首先,我需要确定Diffusion VLA是什么。从用户提供的引用来看,提到了扩散模型(如Stable Diffusion 3)和VLA(可能是Vision-Language-Action模型)。结合引用[3]中的Transfusion模型,它可能是一种结合扩散模型和多模态VLA的技术。 首先,要解析Diffusion VLA中的每个部分。扩散模型(Diffusion)通过逐去噪生成数据,而VLA通常指视觉-语言-动作模型,用于多模态任务。引用[3]中的Transfusion模型结合了预测下一个token和扩散图像,这可能就是Diffusion VLA的一个实例。需要解释扩散模型的基本原理,比如正向和反向过程,以及如何与VLA结合。 接下来是技术原理部分。扩散模型部分需要提到扩散过程、噪声预测和去噪。然后,如何将视觉、语言和动作模态融合。引用[3]提到的Transfusion使用多模态模型预测token并扩散图像,说明可能利用扩散模型生成图像,同时处理语言指令。可能需要解释跨模态注意力机制,如文本到图像的生成控制。 应用方面,用户可能关心实际应用场景。引用[3]提到了图像生成与指令结合,可能用于机器人操作、自动驾驶(如Waymo的参与)。另外,引用[2]提到LIBERO使用OpenVLA模型,虽然没有直接使用扩散模型,但说明VLA在机器人任务中的应用,可能Diffusion VLA用于更复杂的生成任务。 需要确保回答中的LaTeX格式正确,行内公式用$...$,独立公式用$$...$$。例如,扩散模型的损失函数可以用独立公式展示。同时,生成相关问题时要覆盖技术原理、优化、应用场景和与其他模型的比较。 最后,检查引用是否正确关联。引用[1]关于Flow Matching可能与扩散模型的改进有关,引用[3]直接相关,引用[2]虽然不直接涉及扩散,但说明VLA的应用背景。</think>### Diffusion VLA 技术原理及应用 #### 技术原理 1. **扩散模型基础** Diffusion VLA(Vision-Language-Action)的核心是基于扩散模型(Diffusion Model)的生成框架。扩散模型通过逐添加噪声(正向过程)和去噪(反向过程)实现数据生成,其训练目标为最小化噪声预测误差: $$ \mathcal{L} = \mathbb{E}_{t,x_0,\epsilon}\left[\|\epsilon - \epsilon_\theta(x_t,t)\|^2\right] $$ 其中$x_t$为第$t$的噪声数据,$\epsilon$为真实噪声,$\epsilon_\theta$为噪声预测网络[^1]。 2. **多模态融合机制** Diffusion VLA通过跨模态注意力机制(Cross-Modal Attention)将视觉、语言和动作模态对齐。例如,在生成图像时,模型会根据文本指令(如“生成一只戴帽子的狗”)动态调整扩散过程中的噪声预测,实现语义控制。这种设计借鉴了Transfusion模型中“预测下一个token并扩散图像”的思路[^3]。 3. **动作决策扩展** 在机器人或自动驾驶场景中,Diffusion VLA可将感知(视觉)、指令(语言)与动作序列(如机械臂轨迹)联合建模。通过扩散过程生成可能的动作分布,再通过约束优化筛选出最优动作[^2]。 #### 典型应用 1. **可控图像生成** 结合文本指令生成高精度图像(如Stable Diffusion 3),支持细粒度编辑(如局部重绘、风格迁移)[^1]。 2. **机器人任务执行** 输入自然语言指令(如“将红色积木放在蓝色盒子左侧”),模型通过扩散过程生成对应的机械臂运动轨迹,适用于LIBERO等机器人操作框架[^2]。 3. **自动驾驶决策** 如Waymo提出的Transfusion模型,通过扩散过程预测车辆的未来轨迹,同时融合多模态传感器数据(激光雷达、摄像头)与导航指令。 #### 技术挑战 - **计算效率**:扩散模型迭代式生成导致推理速度较慢,需通过蒸馏或流匹配(Flow Matching)优化[^1]。 - **模态对齐**:跨模态数据(如图像-文本-动作)的语义对齐需设计更高效的注意力机制。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值