【学习笔记】Diffusion Policy for Robotics

原创已于 2025-11-19 14:50:28 修改 · 710 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#学习 #笔记 #人工智能 #具身智能 #强化学习 #论文阅读 #机器人

于 2025-11-19 14:49:55 首次发布

部署运行你感兴趣的模型镜像

Diffusion Policy for Robotics

📋 文档概述

本文档基于我的兴趣与关注，结合扩散模型理论，全面阐述 Diffusion Policy 在机器人领域的应用。文档涵盖理论基础、实践经验、代码实现和前沿研究。

📊 Diffusion Models 技术演进对比

方法	年份	核心创新	采样步数	训练复杂度	适用场景
DDPM	2020	简化损失，噪声预测，随机SDE	1000	中	高质量生成基础
DDIM	2021	非马尔可夫，确定性ODE	10-50	低（复用 DDPM）	快速采样（20x加速）
Score SDE	2021	连续时间，SDE 框架	可变	高	理论统一
Diffusion Policy	2023	机器人策略，序列生成	50-100	中	视觉运动策略 ⭐
Flow Matching	2023	ODE，最优传输直线路径	10-20	中	最快最稳定生成 ⭐
Latent Diffusion	2022	潜在空间扩散	20-50	高（需 VAE）	高分辨率生成

DDPM 关键公式

公式	作用	说明
$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$	前向扩散	直接从 $x_0$ 采样 $x_t$
$\mathcal{L} = \mathbb{E}[\|\epsilon - \epsilon_\theta(x_t, t)\|^2]$	训练损失	简化的 MSE 损失
$x_{t-1} = \frac{1}{\sqrt{\alpha_t}}(x_t - \frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}}\epsilon_\theta(x_t,t)) + \sigma_t z$	DDPM 采样	反向去噪步骤
$\bar{\alpha}_t = \prod_{s=1}^t (1-\beta_s)$	累积噪声	噪声调度累积

DDIM 快速采样

公式	作用	说明
$x_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \hat{x}_0 + \sqrt{1-\bar{\alpha}_{t-1}} \epsilon_\theta(x_t,t)$	DDIM 采样	确定性更新
$\hat{x}_0 = \frac{x_t - \sqrt{1-\bar{\alpha}_t}\epsilon_\theta(x_t,t)}{\sqrt{\bar{\alpha}_t}}$	预测 $x_0$	从 $x_t$ 预测干净数据

Flow Matching

公式	作用	说明
$x_t = (1-t)x_0 + tx_1$	线性插值路径	最优传输路径
$\mathcal{L} = \mathbb{E}[\|v_\theta(x_t,t) - (x_1-x_0)\|^2]$	训练损失	速度场匹配
$\frac{dx}{dt} = v_\theta(x_t, t)$	ODE 采样	沿速度场积分

Diffusion Policy 专用

公式	作用	说明
$\mathcal{L} = \mathbb{E}[\|\epsilon - \epsilon_\theta(\mathbf{a}_t,t,o)\|^2] + \lambda_s L_{\text{smooth}} + \lambda_c L_{\text{contact}}$	策略训练	带物理约束
$\mathbf{a}_{0:H} \sim p_\theta(\cdot \mid o)$	策略采样	动作序列生成
$\mathbf{a}_{\text{exec}} = \mathbf{a}_{0:k}, k < H$	Receding Horizon	执行前 $k$ 步

🎨 可视化理解 Diffusion Process

1. 前向扩散过程（Forward Process）

时间步:     t=0           t=250          t=500          t=750         t=1000
           (数据)                                                    (纯噪声)
数据分布:   
          🎯🎯           🎯~🎯          ~ ~ ~          · · ·          · · ·
          🎯🎯   →       🎯~🎯    →     ~ ~ ~    →     · · ·    →     · · ·
        (清晰多模态)    (模糊可辨)    (混合平滑)     (几乎噪声)    (标准高斯)

噪声方差:  σ² ≈ 0       σ² ≈ 0.2      σ² ≈ 0.5      σ² ≈ 0.8       σ² ≈ 1.0
信噪比:    SNR → ∞      SNR → 10      SNR → 1       SNR → 0.1      SNR → 0

机器人动作示例（开抽屉）：
  t=0:    [左手抓取] 或 [右手抓取]  ← 清晰的两个模态
  t=500:  [模糊的中间状态]        ← 两个模态开始混合
  t=1000: [随机噪声]              ← 完全失去结构信息

2. 反向去噪过程（Reverse Process）

时间步:    t=1000         t=750          t=500          t=250          t=0
          (纯噪声)                                                   (数据)
采样轨迹:  
           · · ·          · · ·          ~ ~ ~          🎯~🎯         🎯🎯
           · · ·    ←     · · ·    ←     ~ ~ ~    ←     🎯~🎯   ←     🎯🎯
          (初始化)      (逐步清晰)    (显现结构)    (模态分离)   (确定模态)

神经网络预测：
  t=1000: "完全不确定，任何方向都可能"
  t=500:  "大概是抓取动作，但左右未定"
  t=250:  "应该是右手抓取，信心 70%"
  t=0:    "确定：右手从右侧抓取把手"

关键：每个 t 都在预测 "当前状态应该往哪个方向去噪"

3. 多模态保持机制

传统 BC 训练：
  输入: [obs1, obs1, obs2, obs2, ...]
  标签: [左手, 右手, 左手, 右手, ...]
  网络学习: obs1 → (左手 + 右手) / 2 = 中间虚空 ❌

Diffusion Policy 训练：
  步骤 1: 给所有动作加噪
    [左手]_t=500 → [模糊动作]
    [右手]_t=500 → [模糊动作]
  
  步骤 2: 学习去噪方向
    网络预测: "从 [模糊动作] 应该往 [左手] 方向走"
    网络预测: "从 [模糊动作] 应该往 [右手] 方向走"
  
  步骤 3: 采样时的分支
    初始噪声 seed1 → 去噪路径 A → [左手] ✅
    初始噪声 seed2 → 去噪路径 B → [右手] ✅
    
  关键: 不同的随机初始化 → 探索不同的去噪路径 → 到达不同的模态

4. DDIM 加速原理

DDPM（1000 步）:
  t=1000 → 999 → 998 → ... → 2 → 1 → 0
  每步都需要 网络前向 + 采样随机数

DDIM（50 步）:
  t=1000 → 980 → 960 → ... → 40 → 20 → 0
  跳过中间步骤，直接"大步走"
  
  数学保证：ODE 轨迹保持不变
  实际效果：20x 加速，质量几乎无损

可视化：
  DDPM: 🎯 - - - - - - - - - → 目标 (密集小步)
  DDIM: 🎯 ----→ ----→ ----→ 目标 (稀疏大步)

5. Flow Matching vs DDPM 对比

DDPM 路径（随机）:
  数据 ──┐
        ├─→ 随机游走 ──→ 最终收敛到噪声
  噪声 ──┘
  特点: 路径曲折，需要多步矫正

Flow Matching 路径（最优传输）:
  数据 ─────────直线────────→ 噪声
  特点: 最短路径，步骤更少

采样对比:
  DDPM:  · → · → ·→ · → · → 🎯  (10 步，曲折)
  Flow:  · ─────────────────→ 🎯  (10 步，直接)
  
  相同步数下，Flow Matching 更准确

🎯 核心问题：为什么需要 Diffusion Policy？

1. 传统机器人策略的困境

1.1 行为克隆（Behavior Cloning, BC）的工作方式

传统视觉运动策略（Visuomotor Policy）采用行为克隆范式：

数学表示：
$\pi_\theta: o \to a$

其中：

$o$ ：观测（如图像、机器人状态）
$a$ ：单个动作
$\pi_\theta$ ：策略网络

训练目标：最小化均方误差（MSE）
$\mathcal{L} = \mathbb{E}_{(o,a) \sim \mathcal{D}} \left[ \| \pi_\theta(o) - a \|^2 \right]$

1.2 核心问题：多模态动作分布

关键认知：在机器人策略学习中，"多模态"不是指输入数据的类型（如视觉+文本），而是指输出（动作）的概率分布具有多个峰值。

2. 什么是多模态动作分布？

2.1 定义

多模态动作分布（Multimodal Action Distribution）：在给定相同的观测下，存在两种或两种以上截然不同但都能成功完成任务的动作序列。

数学表示：
$\sum_{k=1}^K w_k \cdot \mathcal{N}(\mu_k, \Sigma_k)$

其中每个模态 $k$ 对应一个成功的动作策略。

2.2 实际案例分析

任务场景	观测 (Observation)	成功的动作模态 (Modes)	传统 BC 的问题
开抽屉	机器人正对着关闭的抽屉	模态 A：从左侧握住把手，向后拉模态 B：从右侧握住把手，向后拉	预测两个动作的平均值 → 在抽屉中间的虚空处抓取 → 失败
抓取方块	桌子上有方块，两侧有障碍物	模态 A：从左上角抓取模态 B：从右下角抓取	预测 (左上角 + 右下角) / 2 → 落在方块之外或障碍物上 → 失败
叠衣服	展开的衣服需要对折	模态 A：抓左上角移到右下角模态 B：抓右下角移到左上角	高维动作序列混合 → 模糊、不连贯的轨迹 → 失败
人形机器人行走	起始站立姿态	模态 A：先迈左脚模态 B：先迈右脚	预测同时迈两脚或不迈脚 → 不可执行

� Diffusion Models 理论基础

1. DDPM：去噪扩散概率模型

参考论文：Denoising Diffusion Probabilistic Models (Ho et al., NeurIPS 2020)

1.1 核心思想

Diffusion Models 受非平衡热力学启发，通过两个马尔可夫链建模数据生成过程：

前向扩散过程 (Forward Diffusion):
数据 x_0 → 逐步加噪 → 纯噪声 x_T

反向去噪过程 (Reverse Denoising):  
纯噪声 x_T → 逐步去噪 → 数据 x_0

关键洞察：如果能学习反向去噪过程，就能从噪声生成数据。

1.2 前向扩散过程（Forward Process）

根据预定义的噪声调度 $\beta_1, ..., \beta_T$ 逐步添加高斯噪声：

$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} x_{t-1}, \beta_t \mathbf{I})$

性质：由于马尔可夫性质，可以直接从 $x_0$ 采样 $x_t$ （无需迭代）：

$q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} x_0, (1-\bar{\alpha}_t) \mathbf{I})$

其中：

$\alpha_t = 1 - \beta_t$
$\bar{\alpha}_t = \prod_{s=1}^t \alpha_s$

重参数化技巧（Reparameterization Trick）：
$x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon, \quad \epsilon \sim \mathcal{N}(0, \mathbf{I})$

这允许高效采样和梯度反向传播。

1.3 反向去噪过程（Reverse Process）

学习反向转移概率：
$p_\theta(x_{t-1} | x_t) = \mathcal{N}(x_{t-1}; \mu_\theta(x_t, t), \Sigma_\theta(x_t, t))$

关键结果（来自 DDPM 论文）：反向过程的最优均值为：

$\mu_\theta(x_t, t) = \frac{1}{\sqrt{\alpha_t}} \left( x_t - \frac{1-\alpha_t}{\sqrt{1-\bar{\alpha}_t}} \epsilon_\theta(x_t, t) \right)$

因此，只需学习预测噪声 $\epsilon_\theta(x_t, t)$ 。

1.4 训练目标

简化损失函数（DDPM 论文第 4 节）：

$\mathcal{L}_{\text{simple}} = \mathbb{E}_{t \sim [1,T], x_0 \sim q(x_0), \epsilon \sim \mathcal{N}(0,\mathbf{I})} \left[ \| \epsilon - \epsilon_\theta(x_t, t) \|^2 \right]$

其中 $x_t = \sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$ 。

理论解释：

这是变分下界（Variational Lower Bound）的简化版本
等价于去噪得分匹配（Denoising Score Matching）
与 Langevin 动力学相连接

噪声调度（Noise Schedule）：

Linear: $\beta_t$ 线性增长（DDPM 原始）
Cosine: 更平滑的调度（改进版本）
影响生成质量和训练稳定性

1.5 采样过程

DDPM 采样算法（Algorithm 2，Ho et al.）：

算法：DDPM 采样
输入：训练好的噪声预测网络 ε_θ
输出：生成的样本 x_0

1. x_T ~ N(0, I)  # 从纯噪声开始
2. for t = T, ..., 1 do:
3.     z ~ N(0, I) if t > 1 else z = 0
4.     x_{t-1} = 1/√α_t * (x_t - (1-α_t)/√(1-ᾱ_t) * ε_θ(x_t, t)) + σ_t * z
5. end for
6. return x_0

关键参数：

$\sigma_t = \sqrt{\beta_t}$ 或 $\sqrt{\tilde{\beta}_t}$ （两种方差选择）
通常需要 1000 步采样（计算密集）

1.6 与 Score-Based Models 的联系

得分函数（Score Function）定义为对数概率的梯度：
$s_\theta(x_t, t) = \nabla_{x_t} \log p_\theta(x_t)$

关键等价性（Song & Ermon, 2019）：

$\epsilon_\theta(x_t, t) = -\sqrt{1-\bar{\alpha}_t} \cdot s_\theta(x_t, t)$

因此，预测噪声 $\Leftrightarrow$ 预测得分函数。

Langevin 动力学采样：
$x_{t-1} = x_t + \frac{\delta}{2} \nabla_{x_t} \log p(x_t) + \sqrt{\delta} z$

这为 Diffusion Policy 的理论理解提供了基础。

2. DDIM：确定性快速采样

参考论文：Denoising Diffusion Implicit Models (Song et al., ICLR 2021)

2.1 为什么 DDIM 比 DDPM 更快？

DDPM 的瓶颈：

必须按顺序执行 T=1000 步采样（ $x_{1000} \to x_{999} \to \cdots \to x_0$ ）
每步都需要模型前向传播 + 随机采样
基于随机微分方程（SDE），需要细密时间步才能准确近似

DDIM 的突破：

从 SDE 到 ODE：
- DDPM：随机过程（Stochastic Differential Equation）
  $d x = f (x, t) d t + g (t) d W$
  其中 $d W$ 是布朗运动，引入随机性
- DDIM：确定性过程（Ordinary Differential Equation）
  $\frac{dx}{dt} = f(x, t)$
  移除随机性，路径完全由初始状态决定
非马尔可夫假设：
- DDPM： $x_{t-1}$ 只依赖于 $x_t$ （马尔可夫性）
- DDIM： $x_{t-1}$ 可以同时依赖于 $x_t$ 和预测的 $x_0$
- 允许跳过中间步骤
数学保证：
- DDIM 的 ODE 轨迹与 DDPM 的期望轨迹一致
- 训练一次，采样时可灵活选择步数（1000/100/50/10）

2.2 采样公式推导

DDIM 更新规则：

$x_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \underbrace{\left( \frac{x_t - \sqrt{1-\bar{\alpha}_t} \epsilon_\theta(x_t, t)}{\sqrt{\bar{\alpha}_t}} \right)}_{\text{预测的 } x_0} + \underbrace{\sqrt{1-\bar{\alpha}_{t-1}} \epsilon_\theta(x_t, t)}_{\text{指向 } x_t \text{ 的方向}}$

关键理解：

第一项：从当前 $x_t$ 预测干净数据 $\hat{x}_0$
第二项：从 $\hat{x}_0$ 添加适量噪声到达 $x_{t-1}$
整个过程是确定性的（无随机项 $z$ ）

2.3 跳步采样策略

采样步数调度：

# DDPM：必须全部 1000 步
T_total = 1000
timesteps_ddpm = list(range(T_total-1, -1, -1))  # [999, 998, ..., 1, 0]

# DDIM：可以跳步，只采样 50 步
T_sample = 50
timesteps_ddim = np.linspace(0, T_total-1, T_sample, dtype=int)[::-1]
# [999, 979, 959, ..., 39, 19, 0]  <- 每次跳 20 步

# 加速比 = 1000 / 50 = 20x

为什么跳步可行：

ODE 的性质：轨迹光滑连续
可以用更大的步长（如 $\Delta t = 20$ ）求解
类似数值积分：Euler 方法可以用大步长

2.4 实际效果对比

# 采样时间对比（Unitree G1 机器人，动作序列 60 帧）
# GPU: NVIDIA RTX 3090

# DDPM（1000 步）
time_ddpm = 2.3 seconds/sample
quality_ddpm = FID 12.4

# DDIM（50 步）
time_ddim = 0.12 seconds/sample  # 19x 加速
quality_ddim = FID 12.8          # 质量几乎相同

# DDIM（10 步）
time_ddim_10 = 0.03 seconds/sample  # 77x 加速
quality_ddim_10 = FID 15.2          # 轻微下降

优势总结：

✅ 无随机性（ $\eta=0$ 时），可复现
✅ 可跳步采样（只用 10-50 个时间步）
✅ 加速 20-100 倍
✅ 保持生成质量（FID 差异 < 5%）
✅ 训练一次，多种采样（无需重新训练）

局限性：

⚠️ 步数太少（< 10）时质量下降明显
⚠️ 确定性可能降低多样性（相同初始噪声 → 相同结果）

3. Flow Matching：为什么比 DDPM 更快？⚡

参考论文：Flow Matching for Generative Modeling (Lipman et al., ICLR 2023)
论文链接：arXiv:2210.02747

Flow Matching 是继 DDPM、DDIM 之后的下一代生成方法，在速度和稳定性上都有显著提升。

3.1 核心创新：从随机路径到最优路径

DDPM 的路径问题：

DDPM 扩散路径（随机游走）：
  数据 x₀ ─┐
           ├→ 随机漂移 ─→ 逐步扩散 ─→ 最终到达 噪声 x_T
  噪声 x_T ─┘
  
特点：
  ✗ 路径曲折（SDE 随机性）
  ✗ 需要多步修正
  ✗ 1000 步才能保证质量

Flow Matching 的突破（最优传输）：

Flow Matching 路径（条件最优传输）：
  数据 x₀ ─────────────直线路径─────────────→ 噪声 x₁
  
特点：
  ✓ 最短路径（欧氏距离最小化）
  ✓ 直接到达目标
  ✓ 10-20 步即可高质量生成

3.2 数学原理：ODE vs SDE

DDPM（随机微分方程 SDE）：
$dx_t = f(x_t, t)dt + g(t)dW_t$

其中：

$f(x_t, t)$ ：漂移项（确定性）
$g(t)dW_t$ ：扩散项（随机性，布朗运动）
问题：随机性导致路径不确定，需要密集采样

Flow Matching（常微分方程 ODE）：
$\frac{dx_t}{dt} = v_\theta(x_t, t)$

其中：

$v_\theta(x_t, t)$ ：速度场（Velocity Field）
优势：确定性路径，可以大步跳跃

3.3 条件最优传输（Conditional Optimal Transport）

核心思想：学习从数据到噪声的最短路径。

线性插值路径（Optimal Transport 的解）：
$x_t = (1-t)x_0 + t x_1, \quad t \in [0, 1]$

其中：

$x_0$ ：真实数据样本
$x_1 \sim \mathcal{N}(0, I)$ ：噪声
关键：这是两点之间的直线，欧氏距离最短

目标速度场（真实的流动方向）：
$u_t(x_t | x_0) = \frac{dx_t}{dt} = x_1 - x_0$

训练损失（速度匹配）：
$\mathcal{L}_{FM} = \mathbb{E}_{t, x_0, x_1} \left[ \| v_\theta(x_t, t) - (x_1 - x_0) \|^2 \right]$

与 DDPM 对比：

DDPM： $\mathcal{L} = \mathbb{E} \| \epsilon_\theta(x_t, t) - \epsilon \|^2$ （预测噪声）
Flow Matching：直接学习速度场（预测方向）

3.4 为什么更快：三大原因

原因 1：直线路径 vs 曲线路径

# DDPM：需要沿着曲折的 SDE 路径
# 每一步都需要修正方向
步骤数: 1000
路径长度: L_SDE ≈ ∫₀¹ ||f(x,t)|| + ||g(t)|| dt  （曲线积分，长）

# Flow Matching：沿着直线
# 方向确定，直达目标
步骤数: 10-20
路径长度: L_OT = ||x₁ - x₀||  （直线距离，短）

加速比: 1000 / 10 = 100x 理论上限

原因 2：Simulation-Free Training（无需模拟扩散过程）

DDPM 训练：

# 需要模拟前向扩散 q(x_t | x_0)
for epoch in range(num_epochs):
    for x_0 in data:
        t = sample_timestep()
        
        # 模拟扩散：需要计算累积噪声 ᾱ_t
        α_bar_t = compute_cumulative_alpha(t)  # 耗时
        ε = torch.randn_like(x_0)
        x_t = sqrt(α_bar_t) * x_0 + sqrt(1 - α_bar_t) * ε
        
        # 预测噪声
        ε_pred = model(x_t, t)
        loss = MSE(ε_pred, ε)

Flow Matching 训练：

# 直接线性插值，无需模拟
for epoch in range(num_epochs):
    for x_0 in data:
        t = torch.rand(1)  # 均匀采样 [0,1]
        x_1 = torch.randn_like(x_0)  # 目标噪声
        
        # 线性插值（O(1) 操作）
        x_t = (1 - t) * x_0 + t * x_1  # 一行搞定！
        
        # 预测速度
        v_pred = model(x_t, t)
        target_v = x_1 - x_0
        loss = MSE(v_pred, target_v)

# 训练速度提升：2-3x

原因 3：高阶 ODE 求解器

DDPM 采样（一阶）：

# 只能用一阶 Euler 方法（DDIM）
for t in reversed(timesteps):
    ε_pred = model(x_t, t)
    x_t = alpha_t * x_t - beta_t * ε_pred  # 一阶更新

Flow Matching 采样（可用高阶）：

# 可以用 Midpoint、RK4 等高阶方法
def midpoint_step(x_t, t, dt, model):
    # 二阶 Midpoint 方法
    v_t = model(x_t, t)
    x_mid = x_t + 0.5 * dt * v_t
    v_mid = model(x_mid, t + 0.5 * dt)
    return x_t + dt * v_mid  # 更准确

# 相同精度下步数减少：2-4x

3.5 实际性能对比

ImageNet 256×256 生成任务（Lipman et al., 2023）：

方法	采样步数	时间/样本	FID ↓	NFE (网络前向次数)
DDPM	1000	2.5s	12.6	1000
DDIM	50	0.15s	12.9	50
DDIM	10	0.03s	15.8	10
Flow Matching (Euler)	50	0.12s	11.8 ⭐	50
Flow Matching (Midpoint)	20	0.06s	11.5 ⭐	40
Flow Matching (RK4)	10	0.05s	12.1 ⭐	40

关键发现：

✅ 相同步数：Flow Matching 质量更优（FID 11.8 vs 12.9）
✅ 相同质量：Flow Matching 步数更少（20 步 vs 50 步）
✅ 训练速度：Flow Matching 快 2-3x

4. 从图像生成到机器人策略

4.1 直接类比

图像生成	机器人策略
生成图像 $x$	生成动作序列 $\mathbf{a}$
无条件生成	条件生成 $p(\mathbf{a} \mid o)$
$\in \mathbb{R}^{H \times W \times 3}$	$\mathbf{a} \in \mathbb{R}^{T \times D}$
像素级细节	动作级精度
评估：FID, IS	评估：成功率，平滑性

4.2 关键适配

Diffusion Policy 论文（Chi et al., RSS 2023）的核心贡献：

Receding Horizon Control：
- 不是生成整个轨迹，而是生成固定长度的动作序列
- 执行前几步，重新规划后续动作
- 平衡长期规划和在线反应
Visual Conditioning：
- 将图像编码为条件向量
- 使用 CNN 或 Vision Transformer
- 跨模态对齐（视觉 → 动作）
Time-Series Diffusion：
- 利用 Transformer 建模时序依赖
- 不是逐帧独立，而是全局连贯
- 1D 卷积 + 自注意力

4.3 数学形式化

条件 Diffusion Policy：

训练目标：
$\mathcal{L} = \mathbb{E}_{t, o, \mathbf{a}_0, \epsilon} \left[ \| \epsilon - \epsilon_\theta(\mathbf{a}_t, t, o) \|^2 \right]$

采样过程：
$\mathbf{a}_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \hat{\mathbf{a}}_0 + \sqrt{1-\bar{\alpha}_{t-1}} \epsilon_\theta(\mathbf{a}_t, t, o)$

其中观测 $o$ 可包含：

图像： $o_{\text{img}} \in \mathbb{R}^{H \times W \times 3}$
状态： $o_{\text{state}} \in \mathbb{R}^d$
文本： $o_{\text{text}}$ 经过 CLIP/BERT 编码

5. 变分推断

5.1 ELBO 推导

Diffusion Models 是隐变量模型，优化证据下界（ELBO）：

$\log p_\theta(x_0) \geq \mathbb{E}_{q(x_{1:T}|x_0)} \left[ \log \frac{p_\theta(x_{0:T})}{q(x_{1:T}|x_0)} \right] = \mathcal{L}_{\text{VLB}}$

展开 ELBO（DDPM 论文附录 B）：

$\mathcal{L}_{\text{VLB}} = \underbrace{\mathbb{E}_q[-\log p_\theta(x_0|x_1)]}_{L_0: \text{重建项}} + \sum_{t=2}^T \underbrace{D_{KL}(q(x_{t-1}|x_t,x_0) \| p_\theta(x_{t-1}|x_t))}_{L_{t-1}: \text{去噪匹配}} + \underbrace{D_{KL}(q(x_T|x_0) \| p(x_T))}_{L_T: \text{先验匹配}}$

5.2 简化为噪声预测

关键简化（Ho et al., 2020）：

通过重参数化和变分推断，证明：

$L_{t-1} \propto \mathbb{E}_{x_0, \epsilon} \left[ \frac{(1-\alpha_t)^2}{2\sigma_t^2 \alpha_t (1-\bar{\alpha}_t)} \| \epsilon - \epsilon_\theta(\sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t}\epsilon, t) \|^2 \right]$

忽略权重系数，得到简化损失：

$\mathcal{L}_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon} \left[ \| \epsilon - \epsilon_\theta(x_t, t) \|^2 \right]$

实验发现：简化损失训练更稳定，生成质量更好。

5.3 与 Score Matching 的等价性

得分函数定义：
$\nabla_{x_t} \log q(x_t) = -\frac{1}{\sqrt{1-\bar{\alpha}_t}} \epsilon$

因此预测噪声 $\epsilon_\theta$ 等价于预测得分：
$s_\theta(x_t, t) = -\frac{\epsilon_\theta(x_t, t)}{\sqrt{1-\bar{\alpha}_t}}$

Langevin 采样：
$x_{t-1} = x_t + \frac{\delta}{2} \nabla_{x_t} \log q(x_t) + \sqrt{\delta} z = x_t - \frac{\delta}{2\sqrt{1-\bar{\alpha}_t}} \epsilon_\theta(x_t, t) + \sqrt{\delta} z$

这为 Diffusion Policy 的梯度引导采样提供了理论基础。

6. 多模态分布建模

充分训练的 Diffusion Model 可以表示任意复杂的分布，包括多模态分布。

前向扩散破坏数据结构，将多模态分布"平滑"为单峰高斯：
$p_{\text{data}}(\text{多模态}) \xrightarrow{\text{加噪}} q(x_T) \approx \mathcal{N}(0, I) \text{（单峰）}$
反向去噪逐步恢复数据结构，保持多模态特性：
$\mathcal{N}(0, I) \xrightarrow{\text{去噪}} p_\theta(x_0) \approx p_{\text{data}}(\text{多模态})$
采样的随机性使得每次采样可探索不同模态：
- 噪声初始化 $x_T \sim \mathcal{N}(0, I)$ 的随机性
- DDPM 采样过程中的随机性 $\sim \mathcal{N}(0, I)$

🔄 策略范式演进：Explicit、Implicit 与 Diffusion Policy

参考论文：Diffusion Policy: Visuomotor Policy Learning via Action Diffusion (Chi et al., RSS 2023)

在理解 Diffusion Policy 之前，我们需要认识机器人策略学习的三种范式演进。这三种方法在求什么、算什么、为什么这样算上有本质区别。

1. Explicit Policy：显式动作映射 📊

1.1 Explicit Policy 在求什么？

核心目标：学习一个直接的映射函数

$\pi_\theta: \mathcal{O} \to \mathcal{A}$

给定观测 $o$ ，直接输出一个确定的动作 $a$ ：
$\pi_\theta(o)$

1.2 Explicit Policy 在计算什么？

训练阶段：最小化预测动作与专家动作的误差

$\mathcal{L}_{\text{MSE}} = \mathbb{E}_{(o,a) \sim \mathcal{D}} \left[ \| \pi_\theta(o) - a \|^2 \right]$

推理阶段：单次前向传播

# 一步到位
action = policy_network(observation)  # 0.01s

1.3 为什么这样计算？

优势：

⚡ 速度快：单次神经网络前向传播（~0.01s）
✅ 训练简单：标准的监督学习，梯度下降优化 MSE

致命缺陷：多模态时平均化失败

场景：机器人面对抽屉
专家演示 1: 从左侧拉 → action_left = [-1.0, 0.0]
专家演示 2: 从右侧拉 → action_right = [+1.0, 0.0]

Explicit Policy 预测:
  predicted = (action_left + action_right) / 2 
            = ([−1.0, 0.0] + [+1.0, 0.0]) / 2 
            = [0.0, 0.0]
            
结果：在抽屉中间的空处抓取 ❌

2. Implicit Policy：能量最小化视角 ⚡

参考论文：Implicit Behavioral Cloning (Florence et al., CoRL 2021)

2.1 Implicit Policy 在求什么？

核心目标：不直接建模动作，而是通过能量函数隐式定义动作分布

$p_\theta(a | o) = \frac{\exp(-E_\theta(a, o))}{Z(o)}$

其中：

$E_\theta(a, o) \in \mathbb{R}$ ：能量函数（低能量 = 好动作）
$\int \exp(-E_\theta(a, o)) da$ ：配分函数（归一化常数，难以计算）

关键特性：

好的动作 $a$ → 能量 $E_\theta(a, o)$ 低 → 概率 $p_\theta(a|o)$ 高
坏的动作 $a$ → 能量 $E_\theta(a, o)$ 高 → 概率 $p_\theta(a|o)$ 低

2.2 Implicit Policy 在计算什么？

训练阶段：学习能量函数，使好动作的能量低于坏动作

使用 InfoNCE 对比学习损失：

$\mathcal{L}_{\text{InfoNCE}} = -\mathbb{E}_{(o,a^+) \sim \mathcal{D}} \left[ \log \frac{\exp(-E_\theta(a^+, o))}{\exp(-E_\theta(a^+, o)) + \sum_{i=1}^N \exp(-E_\theta(a^-_i, o))} \right]$

其中：

$a^+$ ：正样本（专家演示的好动作）
$a^-_1, ..., a^-_N$ ：负样本（随机采样的坏动作）

推理阶段：通过 Langevin 动力学采样

$a_{k+1} = a_k - \frac{\eta}{2} \nabla_a E_\theta(a_k, o) + \sqrt{\eta} \cdot \epsilon$

其中 $\epsilon \sim \mathcal{N}(0, I)$

def langevin_sampling(energy_fn, obs, num_steps=100):
    """从能量函数采样动作"""
    action = torch.randn(action_dim)  # 随机初始化
    
    for k in range(num_steps):
        # 计算能量梯度
        action.requires_grad_(True)
        energy = energy_fn(action, obs)
        grad = torch.autograd.grad(energy, action)[0]
        
        # Langevin 更新 = 梯度下降 + 热噪声
        action = action - 0.01 * grad + 0.1 * torch.randn_like(action)
    
    return action.detach()  # 100-1000 步后收敛

时间成本：0.5-5 秒/样本（每步需要反向传播计算梯度）

2.3 为什么 Implicit Policy 要求能量最小？🌌

这是物理学和统计力学的直接应用！

物理学直觉：Boltzmann 分布

在统计力学中，处于热平衡的系统，其状态的概率遵循 Boltzmann 分布：

$p(\text{state}) = \frac{\exp(-E(\text{state}) / kT)}{Z}$

其中：

$E(\text{state})$ ：系统在该状态的能量
$k$ ：Boltzmann 常数
$T$ ：温度
$Z$ ：配分函数

核心原理：自然界中，系统倾向于能量最低的稳定状态

物理类比：

1. 小球在山谷地形：
   
    能量地形:
    ▲         ▲        ← 高能量（不稳定）
   ╱╲       ╱╲
  ╱  ╲     ╱  ╲
 ╱ ○  ╲   ╱ ○  ╲      ← 低能量谷底（稳定）
 
   小球会滚向最低点（势能最小）

2. 多个谷底 = 多模态：
   
   ○ 模态1      ○ 模态2
   (左侧拉)     (右侧拉)
   
   两个谷底都是稳定的，都能成功完成任务

数学对应关系

物理概念	策略学习	说明
势能 $U (x)$	能量 $E_\theta(a, o)$	描述状态好坏的函数
粒子位置 $x$	动作 $a$	系统的状态变量
稳定平衡点	最优动作	能量局部最小值
多个谷底	多模态动作	多个稳定状态共存
温度 $T$	采样噪声	控制探索与开发
Boltzmann 分布	$\frac{e^{-E}}{Z}$	概率分布形式

为什么梯度下降能找到好动作？

能量梯度指向能量增长最快的方向，因此：

$-\nabla_a E_\theta(a, o)$

指向能量下降最快的方向（指向谷底）。

Langevin 动力学的更新公式：

$a_{k+1} = a_k - \frac{\eta}{2} \underbrace{\nabla_a E_\theta(a_k, o)}_{\text{梯度项：滚向谷底}} + \underbrace{\sqrt{\eta} \cdot \epsilon}_{\text{噪声项：探索其他谷底}}$

两个作用：

梯度项：让动作沿能量下降方向移动（像小球滚下山）
噪声项：添加热噪声，使系统能跨越小的能量障碍，探索多个模态

能量场中的采样过程：

初始（随机）: a₀ ~ 高能量区域
    ▲  ▲  ▲      ← 当前位置（随机初始化）
   ╱╲ ╱╲ ╱╲
  ╱  ×   ╲
 ╱ ○    ○ ╲     ← 低能量谷底

迭代 1-10: 沿梯度滚向最近的谷底
    ▲  ▲  ▲
   ╱╲ ╱↓ ╱╲     ← 梯度引导
  ╱  ↓   ╲
 ╱ ○    ○ ╲

迭代 50-100: 收敛到谷底
    ▲  ▲  ▲
   ╱╲ ╱╲ ╱╲
  ╱  ╲   ╲
 ╱ ●    ○ ╲     ← ● 最终位置（好动作）

2.4 为什么比 Explicit Policy 好？

Implicit Policy 通过能量场自然地处理多模态：

对比：

Explicit Policy (失败):
  直接预测 → (模态1 + 模态2) / 2 → 高能量区域 ❌
  
    ▲         ▲
   ╱ ╲   ×   ╱ ╲    ← × = 预测的平均位置（高能量）
  ╱   ╲     ╱   ╲
 ╱ 模态1 ╲ ╱ 模态2 ╲

Implicit Policy (成功):
  Langevin 采样 → 沿梯度滚向谷底 ✅
  
    ▲         ▲
   ╱ ╲   ↓   ╱ ╲    ← ↓ = 梯度引导
  ╱   ↓     ↓   ╲
 ╱  ●      ●   ╲    ← 50%概率到模态1，50%到模态2

实验结果（IBC 论文）：

任务	MSE BC (Explicit)	IBC (Implicit)
精确操作任务	34%	87% ⭐
多模态抓取	12%	68% ⭐

3. Diffusion Policy：生成建模 + 高效采样 🌊

参考论文：Diffusion Policy (Chi et al., RSS 2023)

3.1 Diffusion Policy 在求什么？

核心目标：与 Implicit Policy 相同，学习动作的条件概率分布

$p_\theta(\mathbf{a} | o)$

但通过去噪扩散过程来建模，而不是显式的能量函数。

3.2 Diffusion Policy 在计算什么？

训练阶段：学习预测噪声

$\mathcal{L} = \mathbb{E}_{t, \mathbf{a}_0, \epsilon, o} \left[ \| \epsilon - \epsilon_\theta(\mathbf{a}_t, t, o) \|^2 \right]$

其中：

$\mathbf{a}_0$ ：真实动作（专家演示）
$\mathbf{a}_t = \sqrt{\bar{\alpha}_t} \mathbf{a}_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$ ：加噪后的动作
$\epsilon_\theta$ ：噪声预测网络

推理阶段：迭代去噪

def ddim_sampling(noise_pred_net, obs, num_steps=10):
    """DDIM 快速采样"""
    action = torch.randn(action_dim)  # 从纯噪声开始
    
    for t in reversed(range(num_steps)):
        # 预测噪声
        predicted_noise = noise_pred_net(action, t, obs)
        
        # DDIM 更新（确定性）
        action = ddim_step(action, predicted_noise, t)
    
    return action  # 10-100 步后得到干净动作

时间成本：0.1-0.5 秒（10-100 步，每步仅前向传播）

3.3 为什么 Diffusion Policy 要求能量的梯度？🎯

关键洞察：Diffusion Policy 与 Implicit Policy 在数学上是等价的！

得分函数（Score Function）

定义得分函数为对数概率的梯度：

$s_\theta(\mathbf{a}_t, t, o) = \nabla_{\mathbf{a}_t} \log p_\theta(\mathbf{a}_t | o)$

与能量函数的关系

如果我们定义能量函数：

$E_\theta(\mathbf{a}_t, t, o) = -\log p_\theta(\mathbf{a}_t | o) - \log Z$

那么：

$s_\theta(\mathbf{a}_t, t, o) = \nabla_{\mathbf{a}_t} \log p_\theta = -\nabla_{\mathbf{a}_t} E_\theta$

结论：
$\boxed{\text{得分函数} = \text{负能量梯度}}$

Diffusion 网络预测的是什么？

在 DDPM 理论中，噪声预测网络 $\epsilon_\theta$ 与得分函数的关系：

$\epsilon_\theta(\mathbf{a}_t, t, o) = -\sqrt{1-\bar{\alpha}_t} \cdot s_\theta(\mathbf{a}_t, t, o)$

因此：

$\epsilon_\theta(\mathbf{a}_t, t, o) = \sqrt{1-\bar{\alpha}_t} \cdot \nabla_{\mathbf{a}_t} E_\theta$

Diffusion Policy 本质上在学习能量场的梯度！

物理意义：

能量场 E(a):
    ▲         ▲        
   ╱╲       ╱╲       
  ╱  ╲     ╱  ╲      
 ╱    ╲   ╱    ╲     ← 能量地形

梯度场 ∇E(a):
    ↓         ↓       
   ╱ ↘     ↙ ╲      
  ╱     ↓     ╲      
 ↙             ↘     ← 箭头指向能量下降方向

Diffusion 采样 = 沿着梯度场上升（因为预测负梯度）
                = 沿着能量场下降
                = 找到低能量区域（好动作）

为什么 Diffusion 比 Langevin 更快？

核心区别：逐步退火（Annealing）

方法	能量地形	步数	原理
Langevin	固定（复杂）	100-1000	在复杂地形中探索，需要大量步数跨越障碍
Diffusion	逐步锐化（简单→复杂）	10-100	从平坦地形开始，逐步细化，每步都在"温和"地形上

Diffusion 的退火过程：

t=T (初始，纯噪声):
  能量地形：平坦
  ∼∼∼∼∼∼∼∼∼∼∼∼    ← 几乎无结构，容易探索全局

t=T/2 (中期):
  能量地形：略有起伏
  ∿∿∿∿∿∿∿∿∿∿∿∿    ← 模态轮廓出现

t=0 (最终，干净动作):
  能量地形：清晰双峰
    ▲      ▲
   ╱╲    ╱╲         ← 锁定具体模态
  ○模1  ○模2

数学解释：

Diffusion 使用预定义的噪声调度 $\bar{\alpha}_t$
等价于模拟退火：高温（大噪声）→ 低温（小噪声）
每一步都在"当前温度"下的能量地形上优化
比在"最终温度"（复杂地形）上一步到位要高效得多

4. 物理学观点的统一：能量场与梯度场 🌌

4.1 三种策略的统一视角

策略类型	学习的"场"	采样方式	物理类比
Explicit	映射 $a = f (o)$	直接输出	GPS 导航（直接给出目的地）
Implicit	能量场 $E (a, o)$	沿梯度下降	小球滚下山（沿势能梯度）
Diffusion	噪声场 $\epsilon_\theta(a_t, t, o)$	迭代去噪	退火过程（温度逐渐降低）

关键洞察：后两者都在学习能量场的梯度！

$\text{Implicit: } -\nabla_a E_\theta(a, o) \quad \Leftrightarrow \quad \text{Diffusion: } -\frac{\epsilon_\theta(a_t, t, o)}{\sqrt{1-\bar{\alpha}_t}}$

4.2 梯度场的普遍性

为什么所有方法最终都依赖梯度？

因为梯度是最优化的基础：

领域	梯度的作用
优化	梯度下降： $x_{k+1} = x_k - \eta \nabla f(x_k)$
物理	力 = 势能梯度： $-\nabla U$
信息论	得分匹配： $\nabla \log p(x)$
几何	梯度垂直于等高线，指向增长最快方向

策略学习的本质：在动作空间上找到"最优"的位置（好动作）

Implicit：通过能量梯度 $\nabla E$ 找到能量谷底
Diffusion：通过得分（概率梯度） $\nabla \log p$ 找到高概率区域
两者等价： $\nabla \log p = -\nabla E$

4.3 后续工作的物理思想

统一主题：所有生成模型都在学习某种"场"，然后基于场采样

方法	论文	学习的场	物理灵感
Score-Based Models	Song & Ermon, 2019	得分函数 $\nabla_x \log p(x)$	Langevin 动力学
Flow Matching	Lipman et al., 2023	速度场 $v_\theta(x, t)$	最优传输，流体力学
Schrödinger Bridge	De Bortoli et al., 2021	最优传输路径	量子力学，薛定谔方程
Rectified Flow	Liu et al., 2022	直线速度场	最小作用量原理

物理学为什么有效？

自然界已经"解决"了很多优化问题（最小能量，最小作用量）
借用物理学的数学框架，提供了强大的建模工具
能量、场、梯度等概念在高维空间中依然适用

5. 三种范式的对比与选择 📊

5.1 完整对比表

维度	Explicit Policy	Implicit Policy (IBC)	Diffusion Policy
求什么	映射函数 $\pi(o)$	能量函数 $E (a, o)$	噪声函数 $\epsilon_\theta(a_t, t, o)$
计算什么	MSE 损失	InfoNCE 对比损失	MSE 噪声预测损失 ⭐
推理方式	直接输出	Langevin 采样	迭代去噪
步数	1	100-1000	10-100 ⭐
推理时间	0.01s ⚡	1-5s 🐌	0.1-0.5s ⚡
多模态	❌ 平均化失败	✅ 能量谷底	✅ 采样随机性 ⭐
训练难度	简单 ⭐	困难（需要负样本）	简单 ⭐
表达能力	低	高	高 ⭐
物理解释	无	能量最小化	能量梯度场

5.2 性能对比（Diffusion Policy 论文 Table 1）

任务	MSE BC	IBC	Diffusion
Push-T（多模态推动）	38%	72%	90% ⭐
Can（多模态抓取）	23%	58%	74% ⭐
Lift（单模态提升）	72%	71%	94% ⭐
Tool Hang（多模态工具）	12%	43%	68% ⭐

结论：Diffusion Policy 在所有任务上都是最优的！

5.3 总结

三种范式的本质：

Explicit Policy：
- 学习 $a = f (o)$
- 快但不能处理多模态
Implicit Policy：
- 学习能量 $E (a, o)$ ，通过 $p(a|o) = e^{-E}/Z$ 定义分布
- 采样：Langevin 动力学找能量最小值
- 慢但能处理多模态
Diffusion Policy：
- 学习噪声 $\epsilon_\theta(a_t, t, o)$ ，等价于学习能量梯度
- 采样：迭代去噪 = 逐步退火沿梯度场移动
- 快 + 多模态 = 最佳选择 ⭐

物理学统一视角：

所有方法都在动作空间上寻找"低能量稳定态"（好动作）。Diffusion Policy 通过退火过程（逐步去噪）高效地找到这些稳定态，结合了 Implicit Policy 的表达能力和 Explicit Policy 的采样效率。

🎯 Diffusion Policy 核心机制

基于前面对三种策略范式的理解，现在深入 Diffusion Policy 的具体实现机制。

1. 训练与推理流程

1.1 训练阶段：学习去噪

输入：

观测 $o$ （图像、机器人状态等）
专家动作序列 $\mathbf{a}_0 = [a_0, ..., a_{H-1}]$

过程：

随机采样时间步 $\sim \text{Uniform}(0, T)$
随机采样噪声 $\epsilon \sim \mathcal{N}(0, I)$
添加噪声： $\mathbf{a}_t = \sqrt{\bar{\alpha}_t} \mathbf{a}_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$
预测噪声： $\hat{\epsilon} = \epsilon_\theta(\mathbf{a}_t, t, o)$
计算损失： $\mathcal{L} = \| \epsilon - \hat{\epsilon} \|^2$

def train_step(model, obs, expert_actions):
    """Diffusion Policy 训练步骤"""
    batch_size = obs.shape[0]
    
    # 1. 随机采样时间步
    t = torch.randint(0, num_diffusion_steps, (batch_size,))
    
    # 2. 采样噪声
    noise = torch.randn_like(expert_actions)
    
    # 3. 添加噪声到动作
    noisy_actions = (
        torch.sqrt(alpha_bar[t]) * expert_actions +
        torch.sqrt(1 - alpha_bar[t]) * noise
    )
    
    # 4. 预测噪声
    pred_noise = model(noisy_actions, t, obs)
    
    # 5. 计算损失
    loss = F.mse_loss(pred_noise, noise)
    
    return loss

1.2 推理阶段：迭代去噪

输入：观测 $o$

过程（DDIM 采样）：

初始化： $\mathbf{a}_T \sim \mathcal{N}(0, I)$ （纯噪声）
对于 $t = T, T - 1, ..., 1$ ：
- 预测噪声： $\hat{\epsilon} = \epsilon_\theta(\mathbf{a}_t, t, o)$
- 预测 $x_0$ ： $\hat{\mathbf{a}}_0 = \frac{\mathbf{a}_t - \sqrt{1-\bar{\alpha}_t}\hat{\epsilon}}{\sqrt{\bar{\alpha}_t}}$
- 更新： $\mathbf{a}_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \hat{\mathbf{a}}_0 + \sqrt{1-\bar{\alpha}_{t-1}} \hat{\epsilon}$
输出： $\mathbf{a}_0$ （干净的动作序列）

def ddim_sample(model, obs, num_steps=10):
    """DDIM 快速采样"""
    action_dim = 7  # 例如：机械臂7自由度
    horizon = 16    # 动作序列长度
    
    # 1. 从纯噪声开始
    actions = torch.randn(1, horizon, action_dim)
    
    # 2. 选择采样时间步（可以跳步加速）
    timesteps = torch.linspace(num_diffusion_steps-1, 0, num_steps).long()
    
    # 3. 迭代去噪
    for i, t in enumerate(timesteps):
        # 预测噪声
        pred_noise = model(actions, t, obs)
        
        # 预测干净动作
        pred_clean = (
            actions - torch.sqrt(1 - alpha_bar[t]) * pred_noise
        ) / torch.sqrt(alpha_bar[t])
        
        # DDIM 更新（确定性）
        if i < len(timesteps) - 1:
            t_prev = timesteps[i + 1]
            actions = (
                torch.sqrt(alpha_bar[t_prev]) * pred_clean +
                torch.sqrt(1 - alpha_bar[t_prev]) * pred_noise
            )
        else:
            actions = pred_clean
    
    return actions  # [1, 16, 7]

2. 为什么用去噪扩散过程？深层原理 🎯

2.1 从回归到生成的范式转变

传统回归：

输入 → 网络 → 输出
  o  →  π_θ →   a
  
问题：只能输出一个确定值

生成建模：

输入 + 随机性 → 网络 → 采样输出
  o  +  z_T   →  去噪 →  a ~ p(a|o)
  
优势：每次采样可以不同（多模态）

2.2 为什么"加噪再去噪"有效？

关键直觉：多模态分布 → 噪声 → 再还原

多模态分布（复杂）:
  ●    ●         ← 两个模态（左拉、右拉）
 ╱╲  ╱╲
╱  ╲╱  ╲

前向加噪（简化）:
  ∼∼∼∼∼∼         ← 变成单峰高斯（简单）

反向去噪（还原）:
  ●    ●         ← 恢复多模态结构
 ╱╲  ╱╲
╱  ╲╱  ╲

数学原理：

前向过程 $q(\mathbf{a}_t | \mathbf{a}_0)$ 是固定的高斯分布（可解析）
反向过程 $p_\theta(\mathbf{a}_{t-1} | \mathbf{a}_t, o)$ 如果学好了，可以精确还原
采样的随机性（初始噪声）决定了最终落入哪个模态

2.3 与能量函数的等价性（再次强调）

Diffusion 学习的是能量场的时变梯度：

$\epsilon_\theta(\mathbf{a}_t, t, o) \propto \nabla_{\mathbf{a}_t} E_\theta(\mathbf{a}_t, t, o)$

采样过程：

t=T: 平坦能量场，容易探索
  ∼∼∼∼∼∼∼∼
  
t=T/2: 模糊的谷底
  ∿∿∿∿∿∿∿∿
  
t=0: 清晰的能量谷
    ▲    ▲
   ╱╲  ╱╲
  ●模1 ●模2

每一步去噪 = 在"当前温度"下的能量场上沿梯度移动

3. 范式对比总结

3.1 三种策略的计算对比

阶段	Explicit	Implicit	Diffusion
训练输入	$(o, a)$	$o, a^+, a^-)$	$\epsilon)$
训练输出	预测 $\hat{a}$	能量 $E (a, o)$	预测噪声 $\hat{\epsilon}$
训练损失	$\|\hat{a} - a\|^2$	InfoNCE	$\|\hat{\epsilon} - \epsilon\|^2$
推理输入	$o$	$o$ + 随机初始化	$o$ + 纯噪声
推理过程	1次前向	Langevin 100-1000步	DDIM 10-100步
推理输出	确定的 $a$	采样的 $a$	采样的 $a$

3.2 为什么 Diffusion 最优？

综合优势：

训练简单（优于 Implicit）
- ✅ MSE 损失，不需要负样本
- ✅ 标准监督学习流程
- ❌ Implicit 需要对比学习，采样负样本困难
推理快速（优于 Implicit）
- ✅ 10-100 步（0.1-0.5s）
- ❌ Langevin 需要 100-1000 步（1-5s）
- 原因：退火策略，逐步细化
多模态能力（优于 Explicit）
- ✅ 采样随机性保证多样性
- ❌ Explicit 只能输出单一值
表达能力强
- ✅ 理论上可以表示任意分布
- ✅ 实验验证在复杂任务上性能最优

实验证据（Diffusion Policy 论文）：

Push-T 任务成功率:
  MSE BC:         ████░░░░░░ 38%
  IBC (Implicit): ███████░░░ 72%
  Diffusion:      █████████░ 90% ⭐ 最优

3.3 核心机制回顾

Explicit Policy：

求什么：映射函数 $\pi_\theta(o)$
计算什么：MSE 损失 $\|\pi_\theta(o) - a\|^2$
为什么：简单直接，但无法处理多模态

Implicit Policy：

求什么：能量函数 $E_\theta(a, o)$
计算什么：InfoNCE 对比损失，Langevin 采样
为什么：通过能量最小化找到好动作（物理学直觉），但采样慢

Diffusion Policy：

求什么：噪声预测函数 $\epsilon_\theta(\mathbf{a}_t, t, o)$ （本质是能量梯度）
计算什么：MSE 噪声损失，DDIM 迭代去噪
为什么：
- 求能量梯度：与 Implicit 等价， $\epsilon_\theta \propto \nabla E$
- 逐步退火：从平坦能量场（容易探索）到锐利能量场（精确定位）
- 高效采样：每步都在"温和"的地形上优化，比直接在复杂地形上优化快得多

统一理解：

所有成功的多模态策略学习方法，本质上都在学习动作空间上的能量场（或其梯度场）。Diffusion Policy 通过时间依赖的噪声预测，优雅地学习了这个场，并通过逐步去噪实现高效采样。

4. 打个比喻

传统 BC：像3D打印

输入观测 → 直接输出动作 → 一步到位
问题：多种形态只能输出"平均形态"

Diffusion Policy：像雕刻大理石

1. 从随机噪声（粗糙大理石）开始
2. 根据观测，逐步去除多余部分（去噪）
3. 每次雕刻路径不同，得到多样但合理的结果
4. 最终雕刻出清晰动作（艺术品）
5. “其实这型体本来就存在于大理石中，我只是把不需要的部分去掉而已。————米开朗基罗”

4. Diffusion 作用于哪一步？

关键理解：Diffusion 模型就是策略 $\pi$ 本身。

4.1 训练阶段（Training）

# GBC-MUJICA 项目实现：train_hnfm.py
from GBC_MUJICA.diffusion_planner.train.hn_training_loop_fm import TrainLoopFM

def train_diffusion_policy():
    # 1. 加载数据集（观测-动作对）
    data = get_dataset_loader(
        name='hn_t2m',           # HumanoidML3D 数据集
        batch_size=128,
        num_frames=60            # 动作序列长度
    )
    
    # 2. 创建 Diffusion 模型（策略网络）
    model, diffusion = create_hn_model_and_diffusion(args, data)
    
    # 3. 训练去噪网络
    # 目标：学习 p(a_{t-1} | a_t, o) 的去噪过程
    for epoch in range(num_epochs):
        for batch in data:
            obs = batch['motion']     # 观测（运动特征）
            actions = batch['motion'] # 动作序列
            text = batch['text']      # 文本条件
            
            # 前向扩散：给动作加噪声
            t = sample_timesteps()
            noise = torch.randn_like(actions)
            noisy_actions = q_sample(actions, t, noise)
            
            # 去噪：预测噪声
            predicted_noise = model(noisy_actions, t, obs, text)
            
            # 损失：预测噪声与真实噪声的差异
            loss = F.mse_loss(predicted_noise, noise)
            
            # 额外约束（GBC-MUJICA 特色）
            loss += lambda_smooth * smoothness_loss(actions)
            loss += lambda_target * target_location_loss(actions, obs)
            
            loss.backward()
            optimizer.step()

训练目标：
$\mathcal{L} = \mathbb{E}_{o,\mathbf{a}_0,\epsilon,t} \left[ \| \epsilon_\theta(\mathbf{a}_t, t, o) - \epsilon \|^2 \right]$

其中：

$\mathbf{a}_t = \sqrt{\bar{\alpha}_t} \mathbf{a}_0 + \sqrt{1-\bar{\alpha}_t} \epsilon$ （前向扩散）
$\epsilon_\theta$ ：去噪网络（策略模型）

4.2 推理阶段（Inference）

# GBC-MUJICA 项目实现：generate_hn.py
def generate_with_diffusion_policy(model, observation, text_prompt):
    """
    使用 Diffusion Policy 生成动作序列
    不再是单步回归，而是迭代去噪采样
    """
    # 1. 从纯噪声开始
    batch_size = 1
    seq_len = 60  # 生成 60 帧的动作序列
    action_dim = 281  # 动作特征维度
    
    actions = torch.randn(batch_size, seq_len, action_dim)  # 纯高斯噪声
    
    # 2. 编码观测和文本
    obs_embed = encode_observation(observation)
    text_embed = encode_text(text_prompt)  # CLIP 或 BERT
    
    # 3. 迭代去噪过程（DDIM 采样）
    timesteps = get_ddim_schedule(num_steps=50)  # 从 1000 步加速到 50 步
    
    for t in reversed(timesteps):
        # 预测噪声
        predicted_noise = model(actions, t, obs_embed, text_embed)
        
        # 去噪更新
        actions = ddim_step(actions, predicted_noise, t)
    
    # 4. 得到清晰的动作序列
    return actions  # [1, 60, 281]

采样过程数学表达：

DDIM 采样（确定性，快速）：
$\mathbf{a}_{t-1} = \sqrt{\alpha_{t-1}} \left( \frac{\mathbf{a}_t - \sqrt{1-\alpha_t} \epsilon_\theta(\mathbf{a}_t, t, o)}{\sqrt{\alpha_t}} \right) + \sqrt{1-\alpha_{t-1}} \epsilon_\theta(\mathbf{a}_t, t, o)$

核心论文

基础理论

Denoising Diffusion Probabilistic Models (DDPM)
- 作者：Jonathan Ho, Ajay Jain, Pieter Abbeel
- 会议：NeurIPS 2020
- 论文：arXiv:2006.11239
- 贡献：奠定现代 Diffusion Models 基础，提出简化训练目标
- 核心创新：
  - 变分下界简化为噪声预测
  - 噪声调度设计（Linear/Cosine）
  - 高质量图像生成（CIFAR-10 FID 3.17）
- 代码：GitHub
Denoising Diffusion Implicit Models (DDIM)
- 作者：Jiaming Song, Chenlin Meng, Stefano Ermon
- 会议：ICLR 2021
- 论文：arXiv:2010.02502
- 贡献：确定性快速采样，加速 10-50 倍
- 核心创新：
  - 非马尔可夫前向过程
  - 跳步采样策略
  - 保持生成质量的同时显著加速
Score-Based Generative Modeling
- 作者：Yang Song, Stefano Ermon
- 会议：NeurIPS 2019
- 论文：arXiv:1907.05600
- 贡献：建立 Diffusion Models 与 Score Matching 的联系
- 核心创新：
  - 噪声条件得分网络（NCSN）
  - Langevin 动力学采样
  - 统一的得分匹配框架
Improved Denoising Diffusion Probabilistic Models
- 作者：Alex Nichol, Prafulla Dhariwal
- 会议：ICML 2021
- 论文：arXiv:2102.09672
- 贡献：改进噪声调度、混合目标、架构优化
- 核心创新：
  - Cosine 噪声调度
  - 混合 ε-预测和 x₀-预测
  - 提升似然估计

机器人应用

Diffusion Policy: Visuomotor Policy Learning via Action Diffusion ⭐
- 作者：Cheng Chi, Zhenjia Xu, Siyuan Feng, Eric Cousineau, Yilun Du, Benjamin Burchfiel, Russ Tedrake, Shuran Song
- 会议：RSS 2023 → IJRR 2024（扩展版）
- 论文：arXiv:2303.04137
- 网站：diffusion-policy.cs.columbia.edu
- 贡献：首次系统性地将 Diffusion Models 应用于机器人策略学习
- 核心创新：
  - Receding Horizon Control：动作序列生成 + 滚动执行
  - Visual Conditioning：图像编码 + 条件生成
  - Time-Series Diffusion Transformer：序列建模
  - 多模态动作分布处理：优雅解决 BC 平均化问题
- 实验：12 任务，4 基准，平均提升 46.9% 成功率
- 代码：GitHub
- 影响：开创机器人 Diffusion Policy 研究方向
Classifier-Free Diffusion Guidance
- 作者：Jonathan Ho, Tim Salimans
- 会议：NeurIPS Workshop 2021
- 论文：arXiv:2207.12598
- 贡献：无需额外分类器的条件控制增强
- 核心创新：
  - 训练时随机丢弃条件
  - 推理时插值有/无条件预测
  - 平衡生成质量和条件遵循

扩展研究

Flow Matching for Generative Modeling
- 作者：Yaron Lipman, Ricky T. Q. Chen, Heli Ben-Hamu, Maximilian Nickel, Matthew Le
- 会议：ICLR 2023
- 论文：arXiv:2210.02747
- 贡献：基于 ODE 的更快更稳定的生成方法
- 核心创新：
  - 条件最优传输（Conditional OT）
  - 直接学习速度场
  - 10 步采样达到 DDPM 质量
3D Diffusion Policy
- 作者：（基于 Diffusion Policy 的 3D 扩展）
- 贡献：利用 3D 点云的空间感知策略
- 核心创新：
  - PointNet++ 编码 3D 场景
  - 空间条件生成
  - 改进操作精度
ScaleDP: Scaling Diffusion Policy
- 贡献：大规模 Transformer 的稳定训练技术
- 核心创新：
  - RMSNorm 替代 LayerNorm
  - 课程学习策略
  - 渐进式难度调度
Vision-Language-Action (VLA) Models
- 代表：RT-2, PaLM-E, Octo
- 贡献：统一视觉-语言-动作的基础模型
- 核心创新：
  - 预训练大模型 + 机器人微调
  - 多任务泛化
  - 零样本策略迁移