具身智能中的diffusion policy，是值得研究的方向吗？

最新推荐文章于 2025-11-10 11:00:00 发布

转载最新推荐文章于 2025-11-10 11:00:00 发布 · 834 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247648925&idx=4&sn=aaedad3a2cb6752c145c5acdd0842e15&chksm=cf5c81b222b027e1338a73f300b1b70dc8d4de5a97ad5ccf6ed447cf378ff8ea9e4fd050c6e6&scene=126&sessionid=0

作者 | 薄紫彤编辑 | 自动驾驶之心

原文链接：https://www.zhihu.com/question/635887335/answer/65505352072

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『具身智能』技术交流群

本文只做学术分享，如有侵权，联系删文

‍

‍在人工智能领域，扩散模型（Diffusion Models，简称DMs）凭借其强大的生成能力，在图像、文本以及轨迹规划等任务中展现了巨大的潜力。然而，当扩散模型应用于决策规划领域时，其低效的迭代采样成为了一个主要瓶颈。许多现有方法，如 Diffuser 和 Decision Diffuser (DD)，在生成高质量轨迹的同时，由于复杂的建模过程，其决策频率往往低于 1Hz。这种性能远不能满足机器人控制、游戏 AI 等实际场景对实时响应的要求。

为解决上述问题，DiffuserLite 应运而生。它通过引入一种创新性的 渐进式精细规划（Progressive Refinement Planning, PRP）方法，在减少冗余信息建模的同时，实现了更高效的轨迹生成。令人印象深刻的是，DiffuserLite 的决策频率达到了 122Hz，比主流框架快 112 倍以上，并在多个基准任务中实现了 State-of-the-Art（SOTA）性能。本文将深入讲解 DiffuserLite 的核心原理与技术亮点，剖析其在实际应用中的潜力，并探讨这一框架可能带来的广泛影响。

问题

在决策规划领域，DiffuserLite 所面临的任务可以描述为一个基于离线强化学习（Offline Reinforcement Learning）的优化问题，其核心目标是生成一条满足目标属性的轨迹。

系统的状态由离散时间动力学方程控制，公式如下：

= f(,)

其中：

表示系统在时间 t 的状态。
为在时间 t 的动作。
表示系统的动态模型。

轨迹 x 可以表示为状态序列或状态-动作对序列，其中T是规划的时间范围。

Diffusion Planning 的目标是找到一条最符合目标的轨迹：

其中：

d 是一个度量轨迹属性与目标属性之间距离的函数。
C是一个评价器（Critic）。

在离线强化学习的背景下，轨迹的属性通常被定义为其累积奖励：

核心在于从离线数据中生成符合目标属性的轨迹，并从中提取执行动作

扩散模型

扩散模型被引入来解决轨迹生成问题。其通过对轨迹分布的建模，能够生成满足目标条件的长时序轨迹。与传统的逐步生成方法不同，扩散规划直接生成完整轨迹，避免了步进式方法中常见的累积误差。现有扩散规划方法的一个主要瓶颈在于高复杂度的采样过程，这需要多次前向传播和复杂的去噪处理，导致决策频率极低。

DiffuserLite

DiffuserLite 是一种高效轻量级的扩散规划框架，旨在解决现有扩散规划方法中因冗余信息建模而导致的低效率问题。它通过引入 渐进式精细规划（Progressive Refinement Planning, PRP）方法，减少了不必要的计算。此外，DiffuserLite 使用 DiT（Transformer 变体）替代传统的 UNet 模型。DiffuserLite 的规划过程分为以下几个阶段：

初始粗略规划：在较大的时间间隔内多次生成关键状态点，忽略中间冗余细节。
评价：使用评价器（Critic）选择最优轨迹。
逐步精细化：在每一层细化关键状态点之间的轨迹（执行多次），利用评价器选择最有轨迹。
快速执行：通过简化的模型架构和条件采样技术，快速生成动作决策。

渐进式精细

规划渐进式精细规划（PRP）是 DiffuserLite 的核心创新之一，用于在生成轨迹时逐步减少冗余建模，提升效率和准确性。PRP 的核心理念是将轨迹生成过程分解为多个逐层优化的阶段，从最初的粗略规划逐步细化，直到生成精确的完整轨迹。在扩散规划中，完整轨迹的生成通常涉及大量冗余信息，尤其是远端状态的细节对于当前决策的影响微乎其微。例如，在长时间跨度的轨迹规划中，远端的状态可能由于环境噪声或动态变化而无法准确到达，因此建模这些细节不仅无益，反而增加了计算负担。冗余信息导致模型需要处理更高维度、更复杂的概率分布，这显著降低了推理速度。PRP

粗略规划：
初始阶段仅生成关键点（Key Points），间隔较大的状态点被视为轨迹的主要参考，而中间状态被忽略。
逐层精细化：
从关键点轨迹出发，逐层填补两点之间的细节，逐步将轨迹分辨率提高到所需的精度。示例：
优化终结：
最后一层完成全轨迹的生成，生成的轨迹既包括整体的长远性，又有足够的局部细节。

例如：对于规划范围为 128 的轨迹，第一层只生成 [0,32,64,96,128] 这几个点。第二层生成[0, 8, 16, 24, 32]，第三层生成[0,1,2,3,4,5,6,7,8]。相比于传统的one-shot方法，能够快速生成出理想的轨迹。

训练

将完整轨迹按层次划分为子轨迹，每层生成的轨迹采用扩散模型拟合其概率分布，优化目标为最小化噪声预测误差。为指导模型生成目标轨迹，DiffuserLite 使用了无分类器指导（CFG）。

Critic设计

Critic 是 DiffuserLite 中的关键部分。Critic的两个核心作用：

提供生成条件：在扩散模型训练过程中，Critic 评估轨迹的属性 C(x)，并作为条件输入指导模型生成目标轨迹。
选择最优轨迹：在推理阶段，Critic 用于从候选轨迹中选择最优轨迹。

在稀疏奖励任务中，直接使用累积奖励可能不够有效，因此可以加入最终状态的值函数：

在特定任务（如机器人控制或行为定制）中，可以将其设计为目标任务的特定指标，例如轨迹平滑性、目标对齐度、或者状态变化的能量消耗。

实验

1.实验目的

实验的主要目的是验证 DiffuserLite 在多种任务中的性能，包括：

效率：决策频率是否显著提升。
准确性：生成轨迹是否符合任务目标。
任务适应性：是否能够处理长时序、稀疏奖励等复杂任务。

2. 实验设置

数据集与环境

DiffuserLite 在以下标准基准任务中进行评估：

Gym-MuJoCo：机器人运动控制任务。
- 任务包括 HalfCheetah、Walker2D 等，主要关注连续控制性能。
FrankaKitchen：复杂任务完成环境。
- 包含多个子任务组合，如打开微波炉、关门等，考验轨迹规划能力。
Antmaze：长时序导航任务。
- 需要在稀疏奖励场景中生成可行的轨迹，特别测试远端轨迹规划能力。

评估指标

决策频率（Hz）：每秒生成的决策次数。
任务成功率：轨迹是否成功达到目标状态。
奖励累计值：生成轨迹的累计奖励。

3. 实验结果

性能比较

DiffuserLite 与主流方法（如 Diffuser、Decision Diffuser）进行了全面对比。结果如下：

决策频率：
- DiffuserLite 的频率达到了 122 Hz，显著高于 Diffuser（约 1 Hz）和 Decision Diffuser（约 0.8 Hz）。

任务成功率：
- 在 FrankaKitchen 任务中，DiffuserLite 的成功率达到了 85%，比基准方法高出约 10%。
累积奖励：
- 在 Gym-MuJoCo 任务中，DiffuserLite 的累计奖励接近理论最优值，展现了优异的控制性能。

消融实验

为了验证各组件的贡献，进行了以下消融实验：

无 PRP（渐进式精细规划）：

不使用 PRP，直接生成完整轨迹。结果显示效率和准确性显著下降。

替换模型架构：

用传统的 UNet 替换 DiT（Diffusion Transformer），推理速度降低约 30%。

移除 Critic 指导：

不使用 Critic 提供的轨迹属性条件，任务成功率降低了 15%。

总结

DiffuserLite 在扩散规划领域实现了一项重要突破，通过引入 渐进式精细规划（PRP）和灵活的 Critic 和属性设计，显著提升了轨迹生成的效率和适应性。实验结果表明：

高效性：DiffuserLite 的决策频率达到了 122Hz，是现有方法的百倍以上，能够满足实时任务需求。
准确性：在 Gym-MuJoCo、FrankaKitchen、Antmaze 等复杂任务中，DiffuserLite 均展现了优异的任务成功率和轨迹规划能力。
适应性：通过 PRP 和 Critic 的结合，DiffuserLite 能够有效处理长时序和稀疏奖励任务，展现了极强的任务扩展性。

整体来看，DiffuserLite 解决了扩散规划的实‍‍‍时性问题。‍

‍

① 2025中国国际新能源技术展会

自动驾驶之心联合主办中国国际新能源汽车技术、零部件及服务展会。展会将于2025年2月21日至24日在北京新国展二期举行，展览面积达到2万平方米，预计吸引来自世界各地的400多家参展商和2万名专业观众。作为新能源汽车领域的专业展，它将全面展示新能源汽车行业的最新成果和发展趋势，同期围绕个各关键板块举办论坛，欢迎报名参加。

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）