【深度学习08】变分自编码器（VAE）

一碗姜汤

已于 2024-05-21 17:31:58 修改

阅读量4.1k

点赞数 48

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：人工智能

于 2024-03-20 15:23:43 首次发布

大致内容：

机器学习中有类似主成分分析（PCA）这样的降维方法：减少描述数据的特征数量的过程。而编码器-解码器结构也可以实现降维思想。如图所示：

这种压缩表示的原理是：通过捕捉原始空间中的重要特征。同时减少噪声和冗余信息。而且，在隐空间中，相似的样本也是相近的，这确保了在隐空间中进行各种计算操作的正确性，同时在隐空间中计算也会更加便捷。

自编码器作为一种神经网络结构，将输入数据映射到隐藏层，解码器将隐藏层映射到输出层。
输入层和输出层有相同的大小，隐藏层的大小通常小于输入层和输出层的大小。
在训练的过程中，自编码器的目标就是最小化输入数据和解码数据之间的重构误差（对应图中的loss），以此来学习参数。e和d分别对应编码器encoder和解码器decoder的映射函数。
编解码器结构，为数据创造了这样一个瓶颈：确保了只有重要的信息特征能够通过并且重建。

我们知道PCA方法实际上是对基坐标轴进行线性变换。而如果自编码器中的编解码函数也是线性的。那么就跟PCA是类似的了，唯一不同的就是神经网络不对坐标轴的正交性有所限制（如右图中ae 的两个维度彼此并不正交）。
自编码器的深度降维能力其实来自于编解码函数的深度非线性。可以这么说：当编解码器有足够的自由度（足够大）时，甚至可以将任何初始数据的维度减少到1（N个数据对应实轴上N个整数相关的解码器，再进行逆变换的过程中实现无损解压缩）。
但是我们仍然要记住降维的目的：尽量将数据主要的结构信息保留在简化的表示中，这需要我们仔细控制和调整潜空间的大小和自编码器的“深度。