生成式AI的统计内核与模型全景-优快云博客

1. 生成模型中用到的核心统计学概念

生成模型的核心目标是从已有的数据中学习其潜在的概率分布，并从这个分布中采样以生成新的数据。以下是一些最关键的统计学概念：

概率分布：
- 概念：描述随机变量在不同取值上的可能性。生成模型本质上就是在学习一个复杂的、高维的、能最好地拟合训练数据的概率分布 Pdata(x)Pdata(x)。
- 在生成模型中的作用：模型学到的分布 Pmodel(x)Pmodel(x) 会尽可能地接近 Pdata(x)Pdata(x)。生成新样本就是从 Pmodel(x)Pmodel(x) 中进行一次采样。
似然函数：
- 概念：在参数估计中，似然函数衡量的是，在给定模型参数 θθ 的情况下，观测到当前数据集 DD 的可能性有多大。它被视为模型参数的函数。
- 在生成模型中的作用：许多生成模型（如VAE，自回归模型，扩散模型）的训练目标就是最大化训练数据的似然函数，即最大似然估计。
贝叶斯定理：
- 概念：描述了在已知先验概率和条件概率的情况下，如何计算后验概率。公式：P(A∣B)=P(B∣A)P(A)P(B)P(A∣B)=P(B)P(B∣A)P(A)。
- 在生成模型中的作用：在变分自编码器（VAEs） 中至关重要。它将数据的生成过程表述为：从一个先验分布 p(z)p(z)（如标准正态分布）中采样一个潜在变量 zz，然后通过解码器 p(x∣z)p(x∣z) 生成数据 xx。推断潜在变量 zz 的后验分布 p(z∣x)p(z∣x) 就直接用到了贝叶斯定理。
期望：
- 概念：随机变量以概率为权重的加权平均值。
- 在生成模型中的作用：在定义损失函数时非常常见。例如，VAE的损失函数（ELBO）和GAN的判别器损失都涉及对随机变量（潜在变量 zz 或数据 xx）的期望计算。
KL散度：
- 概念：衡量两个概率分布之间的差异或“距离”。它不是对称的。
- 在生成模型中的作用：
  - VAE：直接使用KL散度作为损失的一部分，迫使编码器输出的潜在变量分布 q(z∣x)q(z∣x) 接近标准正态先验分布 p(z)p(z)。
  - 扩散模型：在训练过程中，通过最小化KL散度来确保前向加噪过程和后向去噪过程的分布一致性。
蒙特卡洛方法：
- 概念：通过随机采样和求平均值来近似复杂计算（如积分、期望）的一类计算方法。
- 在生成模型中的作用：
  - VAE：在训练时，通过从 q(z∣x)q(z∣x) 中采样来近似计算损失函数中的期望（这被称为重参数化技巧）。
  - 扩散模型：在训练时，随机采样一个时间步 tt 来进行损失计算。

2. 五大生成模型的应用场景与例子

模型	核心思想	应用场景举例
GAN（生成对抗网络）	一个生成器和一个判别器相互博弈，生成器努力生成以假乱真的数据，判别器努力区分真实与生成数据。	1. 图像超分辨率：将低分辨率图片转换成高分辨率、细节丰富的图片。例如，老照片修复、手机相册的“超分”功能。 2. 风格迁移与艺术创作：将一张图片的内容与另一张图片的风格（如梵高的画作）相结合，生成全新的艺术作品。
自回归模型	将数据序列（如图像、文本）的生成看作一个顺序过程，每个新元素的生成都依赖于之前已生成的所有元素。	1. 文本生成：GPT系列模型就是典型的自回归模型。给定一个开头，它可以逐词地生成连贯的文章、代码、诗歌等。 2. 语音合成：WaveNet等模型可以生成非常自然的人声语音，它根据之前的音频样本预测下一个音频样本。
扩散模型	通过一个“前向过程”逐步向数据中添加噪声，然后训练一个神经网络学习“反向过程”，从纯噪声中一步步重建出数据。	1. 文生图：如DALL-E 2, Stable Diffusion， Midjourney。根据用户输入的文本描述，生成高质量、高创意性的图像。 2. 图像编辑：如图像修复、语义编辑。给定一张图片和掩码，可以无缝地补全缺失部分；或根据文字指令（如“加上笑容”）修改图片。
VAE（变分自编码器）	由一个编码器和一个解码器组成。编码器将输入数据映射到一个潜在空间，解码器再从该空间重构数据。其目标是学习一个平滑、有结构的潜在空间。	1. 分子设计：在药物发现中，VAE可以学习分子的潜在表示，然后在该空间中进行搜索和插值，生成具有特定性质的新分子结构。 2. 人脸生成与插值：可以生成新人脸，并且由于潜在空间平滑，可以在两张人脸之间进行平滑的过渡（ morphing ）。
标准化流模型	通过一系列可逆的变换，将一个简单的分布（如高斯分布）映射成一个复杂的数据分布。它可以精确计算数据的似然。	1. 密度估计：直接估计数据的精确概率密度，可用于异常检测。例如，在金融交易中，识别概率极低的异常交易模式。 2. 语音合成：与自回归模型结合，如WaveGlow，可以快速、高质量地从梅尔频谱图生成原始音频波形。

3. 似然函数、最大似然估计与生成模型的关系

这是理解生成模型的一把钥匙。

似然函数：衡量模型生成现有观测数据的可能性。它不是关于数据的概率，而是关于模型参数的函数。一个好的模型，其参数应该使得当前观测到的数据出现的“可能性”很大。
最大似然估计：一种参数估计方法。其核心思想是：寻找一组模型参数，使得模型在当前训练数据上的似然函数值达到最大。通俗讲，就是找到“最可能”产生出我们已看到的数据的那个模型。

它们与生成模型的关系：

生成模型的通用训练目标：绝大多数生成模型（除了GAN）的训练目标都可以被解释为或近似为最大化训练数据的似然。