1. 生成模型中用到的核心统计学概念
生成模型的核心目标是从已有的数据中学习其潜在的概率分布,并从这个分布中采样以生成新的数据。以下是一些最关键的统计学概念:
-
概率分布:
-
概念:描述随机变量在不同取值上的可能性。生成模型本质上就是在学习一个复杂的、高维的、能最好地拟合训练数据的概率分布 Pdata(x)Pdata(x)。
-
在生成模型中的作用:模型学到的分布 Pmodel(x)Pmodel(x) 会尽可能地接近 Pdata(x)Pdata(x)。生成新样本就是从 Pmodel(x)Pmodel(x) 中进行一次采样。
-
-
似然函数:
-
概念:在参数估计中,似然函数衡量的是,在给定模型参数 θθ 的情况下,观测到当前数据集 DD 的可能性有多大。它被视为模型参数的函数。
-
在生成模型中的作用:许多生成模型(如VAE, 自回归模型, 扩散模型)的训练目标就是最大化训练数据的似然函数,即最大似然估计。
-
-
贝叶斯定理:
-
概念:描述了在已知先验概率和条件概率的情况下,如何计算后验概率。公式:P(A∣B)=P(B∣A)P(A)P(B)P(A∣B)=P(B)P(B∣A)P(A)。
-
在生成模型中的作用:在变分自编码器(VAEs) 中至关重要。它将数据的生成过程表述为:从一个先验分布 p(z)p(z)(如标准正态分布)中采样一个潜在变量 zz,然后通过解码器 p(x∣z)p(x∣z) 生成数据 xx。推断潜在变量 zz 的后验分布 p(z∣x)p(z∣x) 就直接用到了贝叶斯定理。
-
-
期望:
-
概念:随机变量以概率为权重的加权平均值。
-
在生成模型中的作用:在定义损失函数时非常常见。例如,VAE的损失函数(ELBO)和GAN的判别器损失都涉及对随机变量(潜在变量 zz 或数据 xx)的期望计算。
-
-
KL散度:
-
概念:衡量两个概率分布之间的差异或“距离”。它不是对称的。
-
在生成模型中的作用:
-
VAE:直接使用KL散度作为损失的一部分,迫使编码器输出的潜在变量分布 q(z∣x)q(z∣x) 接近标准正态先验分布 p(z)p(z)。
-
扩散模型:在训练过程中,通过最小化KL散度来确保前向加噪过程和后向去噪过程的分布一致性。
-
-
-
蒙特卡洛方法:
-
概念:通过随机采样和求平均值来近似复杂计算(如积分、期望)的一类计算方法。
-
在生成模型中的作用:
-
VAE:在训练时,通过从 q(z∣x)q(z∣x) 中采样来近似计算损失函数中的期望(这被称为重参数化技巧)。
-
扩散模型:在训练时,随机采样一个时间步 tt 来进行损失计算。
-
-
2. 五大生成模型的应用场景与例子
| 模型 | 核心思想 | 应用场景举例 |
|---|---|---|
| GAN(生成对抗网络) | 一个生成器和一个判别器相互博弈,生成器努力生成以假乱真的数据,判别器努力区分真实与生成数据。 | 1. 图像超分辨率:将低分辨率图片转换成高分辨率、细节丰富的图片。例如,老照片修复、手机相册的“超分”功能。 2. 风格迁移与艺术创作:将一张图片的内容与另一张图片的风格(如梵高的画作)相结合,生成全新的艺术作品。 |
| 自回归模型 | 将数据序列(如图像、文本)的生成看作一个顺序过程,每个新元素的生成都依赖于之前已生成的所有元素。 | 1. 文本生成:GPT系列模型就是典型的自回归模型。给定一个开头,它可以逐词地生成连贯的文章、代码、诗歌等。 2. 语音合成:WaveNet等模型可以生成非常自然的人声语音,它根据之前的音频样本预测下一个音频样本。 |
| 扩散模型 | 通过一个“前向过程”逐步向数据中添加噪声,然后训练一个神经网络学习“反向过程”,从纯噪声中一步步重建出数据。 | 1. 文生图:如DALL-E 2, Stable Diffusion, Midjourney。根据用户输入的文本描述,生成高质量、高创意性的图像。 2. 图像编辑:如图像修复、语义编辑。给定一张图片和掩码,可以无缝地补全缺失部分;或根据文字指令(如“加上笑容”)修改图片。 |
| VAE(变分自编码器) | 由一个编码器和一个解码器组成。编码器将输入数据映射到一个潜在空间,解码器再从该空间重构数据。其目标是学习一个平滑、有结构的潜在空间。 | 1. 分子设计:在药物发现中,VAE可以学习分子的潜在表示,然后在该空间中进行搜索和插值,生成具有特定性质的新分子结构。 2. 人脸生成与插值:可以生成新人脸,并且由于潜在空间平滑,可以在两张人脸之间进行平滑的过渡( morphing )。 |
| 标准化流模型 | 通过一系列可逆的变换,将一个简单的分布(如高斯分布)映射成一个复杂的数据分布。它可以精确计算数据的似然。 | 1. 密度估计:直接估计数据的精确概率密度,可用于异常检测。例如,在金融交易中,识别概率极低的异常交易模式。 2. 语音合成:与自回归模型结合,如WaveGlow,可以快速、高质量地从梅尔频谱图生成原始音频波形。 |
3. 似然函数、最大似然估计与生成模型的关系
这是理解生成模型的一把钥匙。
-
似然函数:衡量模型生成现有观测数据的可能性。它不是关于数据的概率,而是关于模型参数的函数。一个好的模型,其参数应该使得当前观测到的数据出现的“可能性”很大。
-
最大似然估计:一种参数估计方法。其核心思想是:寻找一组模型参数,使得模型在当前训练数据上的似然函数值达到最大。通俗讲,就是找到“最可能”产生出我们已看到的数据的那个模型。
它们与生成模型的关系:
生成模型的通用训练目标:绝大多数生成模型(除了GAN)的训练目标都可以被解释为或近似为最大化训练数据的似然。
- 自回归模型:直接通过链式法则将数据的联合概率分解为条件概率的乘积,并通过交叉熵损失直接最大化每个条件概率的似然。
- VAE:其目标函数(证据下界, ELBO)是数据对数似然的一个可计算的下界。通过最大化ELBO,我们间接地最大化了数据的(近似)似然。
- 扩散模型:其训练目标(去噪得分匹配)可以被证明等价于最大化数据似然的一个变分下界。
- 标准化流模型:由于其架构的可逆性和雅可比行列式的易算性,它可以直接计算并最大化数据的精确对数似然。
生成式AI的统计基础与模型解析

被折叠的 条评论
为什么被折叠?



