AIGC：使用变分自编码器VAE实现MINIST手写数字生成

原创

已于 2023-12-06 19:59:44 修改 · 4.4k 阅读

54 ·

CC 4.0 BY-SA版权

文章标签：

#AIGC #VAE #生成网络

于 2023-12-06 19:51:05 首次发布

本文介绍变分自编码器（VAE），它是自编码器的扩展，能学习数据分布并生成新样本。阐述了VAE与AE的区别、模型结构、工作原理及推导过程，还提及了其在图像生成、修复、文本生成和数据压缩等方面的应用，最后给出使用VAE实现MNIST手写数字图片生成的代码示例。

1 变分自编码器介绍

变分自编码器（Variational Autoencoders，VAE）是一种生成模型，用于学习数据的分布并生成与输入数据相似的新样本。它是一种自编码器（Autoencoder）的扩展，自编码器是一种用于将输入数据压缩为低维表示并再次解压缩的神经网络结构。VAE的独特之处在于它不仅可以生成新样本，还可以学习数据的概率分布。

VAE的关键思想是将输入数据视为从潜在空间中采样的结果。潜在空间是一个多维空间，每个点都对应着一个可能的数据样本。VAE的目标是学习如何映射输入数据到潜在空间，并从中采样以生成新的样本。

1.1 AE（Autoencoder）

AE（Autoencoder），自动编码器。自编码器的初衷是为了数据降维，假设原始特征x维度过高，那么我们希望通过编码器E将其编码成低维特征向量z=E(x)，编码的原则是尽可能保留原始信息，因此我们再训练一个解码器D，希望能通过z重构原始信息，即x≈D(E(x))，其优化目标一般是

对应的示意图如下：

我们常用的encoder-decoder即为最简单的一种AE。训练过程中加上一些扰动，就可以变成去噪自编码器（DAE）：或者用遮盖（MIM，mask image modeling）的方法来加扰动：

Encoder：将原始的高维数据映射到低维特征空间，这个特征维度一般比原始数据维度要小，这样就起到压缩或者降维的目的，这个低维特征也往往成为中间隐含特征（latent representation）；
Decoder：基于压缩后的低维特征来重建原始数据；

自动编码器是神经网络的一种，其基本思想就是直接使用一层或者多层的神经网络对输入数据进行映射，得到输出向量，作为从输入数据提取出的特征。传统的自动编码器一般用来数据降维或者特征学习，类似于PCA，但是自动编码器比PCA灵活的多，因为它既能表征线性变换又能表征非线性变换。自动编码器可以被看做是前馈网络的一个特例。基本的自编码器模型是一个简单的三层神经网络结构：一个输入层、一个隐藏层和一个输出层。其中输出层和输入层具有相同的维数。

自编码器，它的输入输出是一致的，目标是使用稀疏的高阶特征重新组合来重构自己。自动编码器是一种数据压缩算法，其中数据的压缩和解压缩函数是数据相关的、有损的、从样本中自动学习。

目前自编码器的两个主要用途就是降维、去噪和图像生成。

1.2 VAE（Variational Autoencoder）

VAE虽然名字里也带有自动编码器，但这主要是因为VAE和AE有着类似的结构，即encoder和decoder这样的架构设计。实际上，VAE和AE在建模方面存在很大的区别，从本质上讲，VAE是一种基于变分推断（Variational Inference, Variational Bayesian methods）的概率模型（Probabilistic Model），它属于生成模型（当然也是无监督模型）。

常拿GAN与VAE进行对比学习，希望构建一个从隐变量Z生成目标数据X的模型，但是实现上有所不同。更准确地讲，它们是假设了Z服从某些常见的分布（比如正态分布或均匀分布），然后希望训练一个模型X=g(Z)，这个模型能够将原来的概率分布映射到训练集的概率分布，也就是说，它们的目的都是进行分布之间的变换。
首先我们有一批数据样本{X1,…,Xn}，其整体用X来描述，我们本想根据{X1,…,Xn}}得到X的分布p(X)，如果能得到的话，那我直接根据p(X)来采样，就可以得到所有可能的X了（包括{X1,…,Xn}以外的），这是一个终极理想的生成模型了。当然，这个理想很难实现，于是我们将分布改一改，即p(X)=∑Zp(X|Z)p(Z)
这里我们就不区分求和还是求积分了，意思对了就行。此时p(X|Z)就描述了一个由Z来生成X的模型，而我们假设Z服从标准正态分布，也就是p(Z)=N(0,I)。如果这个理想能实现，那么我们就可以先从标准正态分布中采样一个Z，然后根据Z来算一个X，也是一个很棒的生成模型。接下来就是结合自编码器来实现重构，保证有效信息没有丢失，再加上一系列的推导，最后把模型实现

那现在假设Z服从标准的正态分布，那么我就可以从中采样得到若干个Z1,Z2,…,Zn，然后对它做变换得到X1=g(Z1),X2=g(Z2),…,Xn=g(Zn)，我们怎么判断这个通过g构造出来的数据集，它的分布跟我们目标的数据集分布是不是一样的呢？

KL散度？？答案是no的，因为此时还仅仅是知道了诺干个样本数据，而KL散度是建立在概率分布公式之上的，所以用不了，这个时候，GAN和VAE就有不同之处了，GAN的思路很直接粗犷：既然没有合适的度量，那我干脆把这个度量也用神经网络训练出来吧！ VAE模型的实现有一种迂回的方式。

1.2.1 VAE模型

其实，在整个VAE模型中，我们并没有去使用p(Z)（隐变量空间的分布）是正态分布的假设，我们用的是假设p(Z|X)（后验分布）是正态分布！！

具体来说，给定一个真实样本X_k，我们假设存在一个专属于X_k的分布p(Z|X_k)（学名叫后验分布），并进一步假设这个分布是（独立的、多元的）正态分布。为什么要强调“专属”呢？因为我们后面要训练一个生成器X=g(Z)，希望能够把从分布p(Z|X_k)采样出来的一个Z_k还原为X_k。如果假设p(Z)是正态分布，然后从p(Z)中采样一个Z，那么我们怎么知道这个Z对应于哪个真实的X呢？现在p(Z|X_k)专属于X_k，我们有理由说从这个分布采样出来的Z应该要还原到X_k中去。

事实上，在论文《Auto-Encoding Variational Bayes》的应用部分，也特别强调了这一点：

这时候每一个X_k都配上了一个专属的正态分布，才方便后面的生成器做还原。但这样有多少个X就有多少个正态分布了。我们知道正态分布有两组参数：均值μ和方差σ^2（多元的话，它们都是向量），接下来我们要找出专属于X_k的正态分布p(Z|X_k)的均值和方差，参考WGAN对于GAN的处理。

让我们来思考一下，根据上图的训练过程，最终会得到什么结果。

首先，我们希望重构X，也就是最小化均方，但是这个重构过程受到噪声的影响，因为Z_k是通过重新采样过的，不是直接encoder算出来的，显然噪声会增加重构的难度，不过好在这个噪声强度（方差）是通过一个神经网络算出来的，所以不管怎么采样其实都只是得到确定的结果（也就是均值），只拟合一个当然比拟合多个更容易，而均值是通过另一个神经网络算出来的。