1. DDPM(扩散模型)
- 核心思想:通过马尔可夫链逐步添加噪声(正向过程),再学习逆向去噪过程(反向过程)以生成数据。
- 特点:
- 基于随机微分方程(SDE),训练目标是变分下界(ELBO)。
- 多步采样(通常需数百到千步),速度较慢但生成质量高。
- 生成样本时,从一个简单的噪声分布(如标准高斯分布)开始,然后利用训练好的反向模型逐步去除噪声,每一步都是基于当前状态预测前一步的干净数据。
- 优点:理论上生成结果质量较高,且模型训练目标(重构噪声)相对明确。
- 缺点:生成过程步骤较多,采样速度慢;同时每一步的误差可能会累积。
2. DDIM(改进的扩散模型)
- 核心改进:将DDPM的马尔可夫链推广到非马尔可夫过程,引入确定性采样。
- 特点:
- 基于确定性的常微分方程(ODE),采样路径更灵活。
- 加速采样(可缩减至数十步),保持生成质量。
- 与DDPM共享训练好的噪声预测网络,仅改变采样方式。
- 前向过程:重新参数化扩散过程,允许非马尔可夫链的加噪路径。DDIM 的前向过程不强制要求马尔可夫性,因此可以跳过某些中间步骤。
- 反向过程:设计了一个确定性的映射关系,直接通过隐变量(latent variable)生成样本。
- 优点:显著提升采样速度,兼容DDPM的预训练模型。
- 缺点:牺牲部分多样性以换取速度。
3. Flow Matching(流匹配)
- 核心思想:直接学习一个连续归一化流(CNF),通过常微分方程(ODE)将噪声分布映射到数据分布。
- 特点:
- 基于最优传输(Optimal Transport),目标是最小化生成路径的传输代价。
- 训练目标为匹配目标概率路径(如边缘分布),无需逐步去噪。
- 生成过程是确定性ODE,可能通过更少步骤完成。
- 优点:理论简洁,路径更高效,适合快速采样。
- 缺点:训练需设计合适的目标路径,实现复杂度较高。
4. Rectified Flow(修正流)
- 核心思想:通过迭代修正生成轨迹的弯曲程度,使流(flow)的轨迹趋近直线。
- 特点:
- 基于直线化轨迹(Straightening)思想,通过多次迭代优化ODE的路径。
- 每个迭代步骤修正当前流的轨迹,减少传输路径长度。
- 最终目标是实现直线轨迹,从而用更少步数生成样本。
- 优点:路径更直接,采样效率极高(甚至1-2步),兼容图像、文本等任务。
- 缺点:需多次迭代优化,训练成本可能较高。
关键区别总结
方法 | 理论基础 | 训练目标 | 采样方式 | 速度 | 核心优势 |
---|---|---|---|---|---|
DDPM | 随机扩散(SDE) | 变分下界(ELBO) | 多步去噪(百-千步) | 慢 | 生成质量高,理论严谨 |
DDIM | 确定性扩散(ODE) | 同DDPM,改变采样方式 | 灵活步数(数十步) | 较快 | 加速采样,兼容DDPM模型 |
Flow Matching | 最优传输(ODE) | 匹配目标概率路径 | ODE求解(少步) | 快 | 路径高效,理论简洁 |
Rectified Flow | 修正流(ODE) | 迭代优化轨迹直线化 | 极简步数(1-2步) | 极快 | 超快速采样,通用性强 |
联系与演进
- DDPM → DDIM:DDIM是扩散模型的加速版本,通过非马尔可夫链和确定性ODE改进采样效率。
- Flow Matching → Rectified Flow:Rectified Flow是Flow Matching的进阶方法,通过迭代优化轨迹直线化,进一步减少采样步数。
- 扩散模型 vs. 流模型:DDPM/DDIM基于噪声逐步添加/去除,而Flow Matching和Rectified Flow直接建模数据分布的传输路径,属于不同的生成范式,但均可通过ODE统一框架理解。
应用场景
- DDPM/DDIM:适合对生成质量要求极高、可接受较慢采样的任务(如艺术创作)。
- Flow Matching:适合需要快速生成且追求理论简洁性的场景。
- Rectified Flow:对实时性要求极高的应用(如视频生成、实时渲染)。