【理论推导】基于分数的生成模型Score-based Model

最新推荐文章于 2025-06-27 14:44:45 发布

原创

最新推荐文章于 2025-06-27 14:44:45 发布 · 2.4k 阅读

11 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #深度学习 #人工智能

文章介绍了生成模型的两大类：基于似然的模型（如VAE、正则化流模型）和隐式生成模型（如GAN）。重点讨论了ScoreMatching技术，这是一种用于估计非规范化统计模型的方法，解决了概率分布归一化问题。ScoreMatching通过优化模型参数使其输出的梯度逼近真实数据分布的梯度。此外，文章还提到了SlicedScoreMatching和DenoisingScoreMatching，它们是ScoreMatching的变体，分别解决了计算效率和噪声样本分布的问题。DenoisingScoreMatching通过在原始数据上添加噪声来优化模型，从而生成更准确的数据分布。

生成模型分类

已有的生成模型大致可以分为两类

likelihood-based model：以 VAE 和 normalizing flow model 为主，直接拟合数据分布，但通常对网络模型的结构设计提出了较大限制
implicit generative model：以 GAN 为主，使用判别器间接判断输出的数据是否符合数据分布，存在训练困难，容易训练失败以及模式崩塌等问题

Score Matching & Non-Normalized Distribution

Score Matching 最早在 2005 年《Estimation of Non-Normalized Statistical Models by Score Matching》提出，主要是用于解决概率分布的归一化的问题。在生成模型中，我们常希望使用含参模型 $p_\theta(x)$ 给出的概率密度函数能够拟合真实的概率密度函数 $p (x)$ ， $p_\theta(x)$ 作为一个概率密度函数须满足归一化性质 $\int_x p_{\theta}(x)dx = 1$ ，因此，我们通常使用模型 $q_\theta(x)$ 给出一个未归一化的概率密度函数，然后使用归一化项 $Z(\theta)$ 来保证 $p_\theta(x)$ 的性质，即
$p_\theta(x) = \frac{1}{Z(\theta)}q_\theta(x)$
其中 $Z(\theta)$ 为与样本无关的一个常量。由于 $Z(\theta)$ 的存在，无论是基于梯度的优化过程还是正向推理都变得很难计算，因此，考虑使 $p_\theta(x)$ 关于输入的梯度逼近 $p (x)$ 关于输入的梯度
在这里插入图片描述
$\triangledown_x q_\theta(x) = \triangledown_x p_\theta(x) \approx \triangledown_x p(x)$
形式化地，我们定义分数函数 $\psi : \R^n\rightarrow \R^n$ 如下
$\psi(x) = \triangledown_x p(x)$
我们利用MSE损失函数找到最优参数 $\theta$ 的过程称作是 Score Matching，损失函数定义为
$\begin{align} J_\text{ESM}(\theta) &= \frac{1}{2} \int_{x} p(x) ||\psi_\theta(x) - \psi(x)||_2^2 dx \nonumber \\ &= \mathbb E_{x\sim p(x)} [\frac{1}{2}||\psi_\theta(x) - \psi(x)||_2^2] \end{align}$
这种损失函数的表达形式也被称为显式分数匹配 (Explicit Score Matching)

对 $J_\text{ESM}$ 进行展开，有
$\begin{align} J(\theta) &= \frac{1}{2} \int_{x} p(x) ||\psi_\theta^2(x)||^2_2dx - \int_{x} p(x) \psi_\theta^T(x)\psi(x)dx + \frac{1}{2} \int_{x} p(x) ||\psi^2(x)||^2_2dx \nonumber \\ &= \frac{1}{2} \int_{x} p(x) ||\psi_\theta^2(x)||^2_2dx - \int_{x} p(x) \psi_\theta^T(x)\psi(x)dx + C \end{align}$
对于第二项进行维度展开，有
$\begin{align} \int_{x} p(x) \psi_\theta^T(x)\psi(x)dx &= \sum_{i=1}^n \int_{x} p(x) \psi_\theta^{(i)}(x)\psi^{(i)}(x)dx \nonumber \\&= \sum_{i=1}^n \int_{x} p(x) \psi_\theta^{(i)}(x)\frac{\partial \log p(x)}{\partial x^{(i)}}dx \nonumber \\&= \sum_{i=1}^n \int_{x} \psi_\theta^{(i)}(x)\frac{\partial p(x)}{\partial x^{(i)}}dx \end{align}$
我们考虑 $i = 1$ 时的情况，由分部积分公式
$\lim_{a\rightarrow \infty , b\rightarrow -\infty} f(a, x^{(2)}, ... , x^{(n)}) g(a, x^{(2)}, ... , x^{(n)}) - f(b, x^{(2)}, ... , x^{(n)}) g(b, x^{(2)}, ... ,$