14、基于扩散模型的舞蹈生成快速采样方法

最新推荐文章于 2025-11-12 09:28:22 发布

raspberrypi5

最新推荐文章于 2025-11-12 09:28:22 发布

阅读量26

点赞数

CC 4.0 BY-SA版权

分类专栏：智能语音前沿探秘文章标签：扩散模型舞蹈生成快速采样

本文链接：https://blog.youkuaiyun.com/raspberrypi5/article/details/152600139

智能语音前沿探秘专栏收录该内容

39 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于扩散模型的舞蹈生成快速采样方法

1. 去噪扩散概率模型基础

去噪扩散概率模型（DDPM）利用两个马尔可夫链：前向链将数据扰动为噪声，反向链将噪声转换回数据。给定数据分布 $x_0 \sim q(x_0)$，前向马尔可夫过程通过逐步注入不同 $\sigma$ 的高斯噪声来生成随机变量序列 $x_1, x_2, \cdots, x_T$：
$q(x_t|x_{t - 1}) = N(x_t; \sqrt{1 - \beta_t}x_{t - 1}, \beta_tI)$，
其中 $\beta_t \in (0, 1)$ 是一个随 $t$ 单调递增的常数序列，是预定义的值序列。

在反向马尔可夫过程中，从标准正态分布中获取一个样本，并对其去噪以恢复原始数据分布。样本表示为 $p(x_T) = N(x_T; 0, I)$，去噪操作表示为 $p_{\theta}(x_{t - 1}|x_t)$，形式为：
$p_{\theta}(x_{t - 1}|x_t) = N(x_{t - 1}; \mu_{\theta}(x_t, t), \Sigma_{\theta}(x_t, t))$，
其中 $\theta$ 表示模型参数，均值 $\mu_{\theta}$ 和方差 $\Sigma_{\theta}$ 由深度神经网络参数化。DDPM 的最终训练目标是通过最小化 $q(x_0, x_1, \cdots, x_T)$ 和 $p_{\theta}(x_0, x_1, \cdots, x_T)$ 的 Kullback - Leibler（KL）散度得到：
$L_{simple}(\theta) = E_{t,x_0,\epsilon}[|\epsilon - \epsi