基于扩散模型的舞蹈生成快速采样方法
1. 去噪扩散概率模型基础
去噪扩散概率模型(DDPM)利用两个马尔可夫链:前向链将数据扰动为噪声,反向链将噪声转换回数据。给定数据分布 $x_0 \sim q(x_0)$,前向马尔可夫过程通过逐步注入不同 $\sigma$ 的高斯噪声来生成随机变量序列 $x_1, x_2, \cdots, x_T$:
$q(x_t|x_{t - 1}) = N(x_t; \sqrt{1 - \beta_t}x_{t - 1}, \beta_tI)$,
其中 $\beta_t \in (0, 1)$ 是一个随 $t$ 单调递增的常数序列,是预定义的值序列。
在反向马尔可夫过程中,从标准正态分布中获取一个样本,并对其去噪以恢复原始数据分布。样本表示为 $p(x_T) = N(x_T; 0, I)$,去噪操作表示为 $p_{\theta}(x_{t - 1}|x_t)$,形式为:
$p_{\theta}(x_{t - 1}|x_t) = N(x_{t - 1}; \mu_{\theta}(x_t, t), \Sigma_{\theta}(x_t, t))$,
其中 $\theta$ 表示模型参数,均值 $\mu_{\theta}$ 和方差 $\Sigma_{\theta}$ 由深度神经网络参数化。DDPM 的最终训练目标是通过最小化 $q(x_0, x_1, \cdots, x_T)$ 和 $p_{\theta}(x_0, x_1, \cdots, x_T)$ 的 Kullback - Leibler(KL)散度得到:
$L_{simple}(\theta) = E_{t,x_0,\epsilon}[|\epsilon - \epsi
超级会员免费看
订阅专栏 解锁全文
56

被折叠的 条评论
为什么被折叠?



