深入理解Atcold/pytorch-Deep-Learning中的变分自编码器(VAE)-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00737/article/details/148465504

深入理解Atcold/pytorch-Deep-Learning中的变分自编码器(VAE)

变分自编码器(Variational Autoencoder, VAE)是一种强大的生成模型，它结合了深度学习和概率图模型的优势。与传统的自编码器(Autoencoder, AE)不同，VAE不仅能学习数据的压缩表示，还能生成新的数据样本。

在深入VAE之前，我们先简要回顾传统自编码器的结构：

编码器阶段：通过仿射变换将输入x映射到隐藏状态h $$ \boldsymbol{h} = f(\boldsymbol{W}_h \boldsymbol{x} + \boldsymbol{b}_h) $$ 其中f是逐元素的激活函数
解码器阶段：从隐藏状态h重建输入 $$ \hat{\boldsymbol{x}} = g(\boldsymbol{W}_x \boldsymbol{h} + \boldsymbol{b}_x) $$

传统AE的目标是最小化输入与重建输出之间的差异。

VAE与传统AE在结构上有相似之处，但核心思想有本质区别：

编码器输出：VAE的编码器不仅输出隐藏表示，还输出潜在变量的均值和方差 $$ \boldsymbol{x} \mapsto (\mathbb{E}(\boldsymbol{z}), \mathbb{V}(\boldsymbol{z})) $$
潜在空间结构：VAE强制潜在空间遵循特定的概率分布(通常是高斯分布)
生成能力：VAE可以通过从潜在分布采样来生成新样本

VAE的损失函数由两部分组成：

重建损失：衡量输入与重建输出之间的差异
- 对于二值输入：使用二元交叉熵
- 对于实值输入：使用均方误差
正则化项：KL散度，强制潜在变量接近标准正态分布 $$ \beta l_{\text{KL}}(\boldsymbol{z},\mathcal{N}(\textbf{0}, \boldsymbol{I}_d)) $$

完整的损失函数： $$ l(\boldsymbol{x}, \hat{\boldsymbol{x}}) = l_{reconstruction} + \beta l_{\text{KL}} $$