变分自编码器(VAEs)详解
1. VAEs与贝叶斯定理
在训练过程中,编码器神经网络会随机地将特定的输入数据实例(输入空间中的一个点 $\vec{x}$)映射到潜在空间中的一个点 $\vec{z} \sim N(\vec{z}; \vec{\mu}(\vec{x}), \Sigma(\vec{x}))$。这样,潜在空间映射实际上对后验概率 $p(\vec{z}|\vec{x})$ 进行了建模。需要注意的是,我们用符号 $q(\vec{z}|\vec{x})$ 来表示编码器实际输出的分布,而用符号 $p(\vec{z}|\vec{x})$ 来表示真实(未知)的后验概率分布。当然,我们希望这两者尽可能接近,也就是要使它们之间的KL散度最小化。后续我们会看到,最小化 $q(\vec{z}|\vec{x})$ 和 $p(\vec{z}|\vec{x})$ 之间的KL散度是整个VAE算法的关键。
解码器则将潜在空间中的这个点 $\vec{z}$ 映射回输入空间的点 $\tilde{x}$,从而对概率分布 $p(\vec{x}|\vec{z})$ 进行建模。
潜在向量 $\vec{z}$ 的全局分布有效地对 $p(\vec{z})$ 进行了建模。这些概率通过贝叶斯定理相互关联:
$$p(\vec{z}|\vec{x}) = \frac{p(\vec{x}|\vec{z}) p(\vec{z})}{p(\vec{x})}$$
其中,$p(\vec{x})$ 是关于 $\vec{z}$ 的常数,可视为证据。
2. 随机映射带来潜在空间的平滑性
从狭窄分布中对编码器的输出进行采样,这与确定性映射类似但并不相同。与直接编码相比,它有一
超级会员免费看
订阅专栏 解锁全文
105

被折叠的 条评论
为什么被折叠?



