差分自编码器介绍、推导及实现-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_37174526/article/details/101275920

本文介绍了差分自编码器（VAE）的概念，包括其与自编码器的区别，以及VAE如何通过学习隐变量的概率分布生成新样本。通过数学推导，解释了VAE的目标是最大化期望重构概率与K-L散度的差值。文章还讨论了VAE的先验分布通常选择为标准高斯分布的原因，并提到了在实现中常用的重参数化技巧。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

说在前面的话

最近几天在看VAE（variational auto-encoder）相关的资料，自己也是第一次接触到，在网上陆陆续续看了一些资料和视频，从看不懂，到迷迷糊糊，再到理解并用代码实现，这也花费了我将近两天的时间，所以，如果你也和我一样刚接触到，请耐心地多翻阅资料，看完本文并理解本文可能会需要花费你比较多时间。本文中，我会尽力把概念描述得更加intuitive，把数学公式推导过程列出，再最后对结果做一个解释。

如果有理解或表述不当，大家在评论下留言啦~ ?

0. 预备知识

0.1 信息量

在信息理论中，我们用以下式子来量化一个事件 $x$ 的信息量 $I (x)$ :

$I (x) = - l o g p (x) ， p (x) 为事件 x 发生的概率$

当 $l o g$ 底数为e时，信息量的单位为nat（奈特），当 $l o g$ 底数为2时，信息量的单位为bit（比特）。

0.2 信息熵（Entropy）

此外，如果用以下两个式子分别来表示随机变量 $X$ 在离散和连续情况下的信息熵 $H$ :
$H=\sum{-logp(x)*p(x)} \\ H=\int{-logp(x)*p(x)dx}$
信息熵可以看做是对信息量的期望。

0.3 K-L散度（Kullback-Leibler divergence）

K-L散度又被称为相对熵（relative entropy），是对两个概率分布间差异的非对称性度量。

假设 $p (x), q (x)$ 是随机变量上的两个概率分布，则在离散和连续随机变量的情形下，相对熵的定义分别为：
$KL(p(x)||q(x))=\sum{p(x)log\frac{p(x)}{q(x)}} \\ KL(p(x)||q(x))=\int{p(x)log\frac{p(x)}{q(x)}}dx$