生成式AI的统计内核与模型全景

生成式AI的统计基础与模型解析

1. 生成模型中用到的核心统计学概念

生成模型的核心目标是从已有的数据中学习其潜在的概率分布,并从这个分布中采样以生成新的数据。以下是一些最关键的统计学概念:

  1. 概率分布

    • 概念:描述随机变量在不同取值上的可能性。生成模型本质上就是在学习一个复杂的、高维的、能最好地拟合训练数据的概率分布 Pdata(x)Pdata​(x)。

    • 在生成模型中的作用:模型学到的分布 Pmodel(x)Pmodel​(x) 会尽可能地接近 Pdata(x)Pdata​(x)。生成新样本就是从 Pmodel(x)Pmodel​(x)  中进行一次采样。

  2. 似然函数

    • 概念:在参数估计中,似然函数衡量的是,在给定模型参数 θθ 的情况下,观测到当前数据集 DD 的可能性有多大。它被视为模型参数的函数。

    • 在生成模型中的作用:许多生成模型(如VAE, 自回归模型, 扩散模型)的训练目标就是最大化训练数据的似然函数,即最大似然估计。

  3. 贝叶斯定理

    • 概念:描述了在已知先验概率和条件概率的情况下,如何计算后验概率。公式:P(A∣B)=P(B∣A)P(A)P(B)P(A∣B)=P(B)P(B∣A)P(A)​。

    • 在生成模型中的作用:在变分自编码器(VAEs) 中至关重要。它将数据的生成过程表述为:从一个先验分布 p(z)p(z)(如标准正态分布)中采样一个潜在变量 zz,然后通过解码器 p(x∣z)p(x∣z) 生成数据 xx。推断潜在变量 zz 的后验分布 p(z∣x)p(z∣x) 就直接用到了贝叶斯定理。

  4. 期望

    • 概念:随机变量以概率为权重的加权平均值。

    • 在生成模型中的作用:在定义损失函数时非常常见。例如,VAE的损失函数(ELBO)和GAN的判别器损失都涉及对随机变量(潜在变量 zz 或数据 xx)的期望计算。

  5. KL散度

    • 概念:衡量两个概率分布之间的差异或“距离”。它不是对称的。

    • 在生成模型中的作用

      • VAE:直接使用KL散度作为损失的一部分,迫使编码器输出的潜在变量分布 q(z∣x)q(z∣x) 接近标准正态先验分布 p(z)p(z)。

      • 扩散模型:在训练过程中,通过最小化KL散度来确保前向加噪过程和后向去噪过程的分布一致性。

  6. 蒙特卡洛方法

    • 概念:通过随机采样和求平均值来近似复杂计算(如积分、期望)的一类计算方法。

    • 在生成模型中的作用

      • VAE:在训练时,通过从 q(z∣x)q(z∣x) 中采样来近似计算损失函数中的期望(这被称为重参数化技巧)。

      • 扩散模型:在训练时,随机采样一个时间步 tt 来进行损失计算。

2. 五大生成模型的应用场景与例子

模型核心思想应用场景举例
GAN(生成对抗网络)一个生成器和一个判别器相互博弈,生成器努力生成以假乱真的数据,判别器努力区分真实与生成数据。1. 图像超分辨率:将低分辨率图片转换成高分辨率、细节丰富的图片。例如,老照片修复、手机相册的“超分”功能。
2. 风格迁移与艺术创作:将一张图片的内容与另一张图片的风格(如梵高的画作)相结合,生成全新的艺术作品。
自回归模型将数据序列(如图像、文本)的生成看作一个顺序过程,每个新元素的生成都依赖于之前已生成的所有元素。1. 文本生成:GPT系列模型就是典型的自回归模型。给定一个开头,它可以逐词地生成连贯的文章、代码、诗歌等。
2. 语音合成:WaveNet等模型可以生成非常自然的人声语音,它根据之前的音频样本预测下一个音频样本。
扩散模型通过一个“前向过程”逐步向数据中添加噪声,然后训练一个神经网络学习“反向过程”,从纯噪声中一步步重建出数据。1. 文生图:如DALL-E 2, Stable Diffusion, Midjourney。根据用户输入的文本描述,生成高质量、高创意性的图像。
2. 图像编辑:如图像修复、语义编辑。给定一张图片和掩码,可以无缝地补全缺失部分;或根据文字指令(如“加上笑容”)修改图片。
VAE(变分自编码器)由一个编码器和一个解码器组成。编码器将输入数据映射到一个潜在空间,解码器再从该空间重构数据。其目标是学习一个平滑、有结构的潜在空间。1. 分子设计:在药物发现中,VAE可以学习分子的潜在表示,然后在该空间中进行搜索和插值,生成具有特定性质的新分子结构。
2. 人脸生成与插值:可以生成新人脸,并且由于潜在空间平滑,可以在两张人脸之间进行平滑的过渡( morphing )。
标准化流模型通过一系列可逆的变换,将一个简单的分布(如高斯分布)映射成一个复杂的数据分布。它可以精确计算数据的似然。1. 密度估计:直接估计数据的精确概率密度,可用于异常检测。例如,在金融交易中,识别概率极低的异常交易模式。
2. 语音合成:与自回归模型结合,如WaveGlow,可以快速、高质量地从梅尔频谱图生成原始音频波形。

3. 似然函数、最大似然估计与生成模型的关系

这是理解生成模型的一把钥匙。

  • 似然函数:衡量模型生成现有观测数据的可能性。它不是关于数据的概率,而是关于模型参数的函数。一个好的模型,其参数应该使得当前观测到的数据出现的“可能性”很大。

  • 最大似然估计:一种参数估计方法。其核心思想是:寻找一组模型参数,使得模型在当前训练数据上的似然函数值达到最大。通俗讲,就是找到“最可能”产生出我们已看到的数据的那个模型。

它们与生成模型的关系:

生成模型的通用训练目标:绝大多数生成模型(除了GAN)的训练目标都可以被解释为或近似为最大化训练数据的似然

  1. 自回归模型:直接通过链式法则将数据的联合概率分解为条件概率的乘积,并通过交叉熵损失直接最大化每个条件概率的似然。
  2. VAE:其目标函数(证据下界, ELBO)是数据对数似然的一个可计算的下界。通过最大化ELBO,我们间接地最大化了数据的(近似)似然。
  3. 扩散模型:其训练目标(去噪得分匹配)可以被证明等价于最大化数据似然的一个变分下界。
  4. 标准化流模型:由于其架构的可逆性和雅可比行列式的易算性,它可以直接计算并最大化数据的精确对数似然。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值