差分自编码器介绍、推导及实现

本文介绍了差分自编码器(VAE)的概念,包括其与自编码器的区别,以及VAE如何通过学习隐变量的概率分布生成新样本。通过数学推导,解释了VAE的目标是最大化期望重构概率与K-L散度的差值。文章还讨论了VAE的先验分布通常选择为标准高斯分布的原因,并提到了在实现中常用的重参数化技巧。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

说在前面的话

最近几天在看VAE(variational auto-encoder)相关的资料,自己也是第一次接触到,在网上陆陆续续看了一些资料和视频,从看不懂,到迷迷糊糊,再到理解并用代码实现,这也花费了我将近两天的时间,所以,如果你也和我一样刚接触到,请耐心地多翻阅资料,看完本文并理解本文可能会需要花费你比较多时间。本文中,我会尽力把概念描述得更加intuitive,把数学公式推导过程列出,再最后对结果做一个解释。

如果有理解或表述不当,大家在评论下留言啦~ ?

0. 预备知识

0.1 信息量

在信息理论中,我们用以下式子来量化一个事件 x x x的信息量 I ( x ) I(x) I(x):

I ( x ) = − l o g p ( x ) , p ( x ) 为 事 件 x 发 生 的 概 率 I(x)=-logp(x),p(x)为事件x发生的概率 I(x)=logp(x)p(x)x

l o g log log底数为e时,信息量的单位为nat(奈特),当 l o g log log底数为2时,信息量的单位为bit(比特)。

0.2 信息熵(Entropy)

此外,如果用以下两个式子分别来表示随机变量 X X X在离散和连续情况下的信息熵 H H H:
H = ∑ − l o g p ( x ) ∗ p ( x ) H = ∫ − l o g p ( x ) ∗ p ( x ) d x H=\sum{-logp(x)*p(x)} \\ H=\int{-logp(x)*p(x)dx} H=logp(x)p(x)H=logp(x)p(x)dx
信息熵可以看做是对信息量的期望。

0.3 K-L散度(Kullback-Leibler divergence)

K-L散度又被称为相对熵(relative entropy),是对两个概率分布间差异的非对称性度量。

假设 p ( x ) , q ( x ) p(x), q(x) p(x),q(x)是随机变量 上的两个概率分布,则在离散和连续随机变量的情形下,相对熵的定义分别为:
K L ( p ( x ) ∣ ∣ q ( x ) ) = ∑ p ( x ) l o g p ( x ) q ( x ) K L ( p ( x ) ∣ ∣ q ( x ) ) = ∫ p ( x ) l o g p ( x ) q ( x ) d x KL(p(x)||q(x))=\sum{p(x)log\frac{p(x)}{q(x)}} \\ KL(p(x)||q(x))=\int{p(x)log\frac{p(x)}{q(x)}}dx KL(p(x)q(x))=p(x)logq(x)p(x)KL(p(x)q(x))=p(x)logq(x)p(x)dx

注意!K-L散度不是对称的,它不是描述两个分布之间的距离,因为按照上述定义, K L ( p ( x ) ∣ ∣ q ( x ) ) ≠ K L ( q ( x ) ∣ ∣ p ( x ) ) KL(p(x)||q(x))\ne KL(q(x)||p(x)) KL(p(x)q(x))=KL(q(x)p(x))

0.4 贝叶斯公式(Bayes Rule)

这个就不多讲了,为了和下述的notation保持一致,公式表述如下
p ( z ∣ x ) = p ( z , x ) p ( x ) = p ( x ∣ z ) p ( z ) p ( x ) p(z|x)=\frac{p(z,x)}{p(x)}=\frac{p(x|z)p(z)}{p(x)} p(zx)=

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值