
第5章 自编码器
自编码器是一种基于无监督学习的数据维度压缩和特征表达方法,多层自编码器能够更好地进行压缩及特征表达。
自编码器有多种变种:降噪自编码器、稀疏自编码器、以及由多层自编码器组成的栈式自编码器。
一、自编码器
自编码器是一种有效的数据维度压缩算法,主要应用于一下两个方面。
- 构建一种能够重构输入样本并进行特征表达的神经网络。
- 训练多层神经网络时,通过自编码器训练样本得到参数初始值。
“特征表达”是指对于分类会发生变动的不稳定模式,例如手写字符识别中由于不同人的书写习惯和风格的不同造成字符模式不稳定,或者输入样本中包含噪声等情况,神经网络也能将其转换成可以准确识别的特征。当样本中包含噪声时,如果神经网络能够消除噪声,则被称为降噪自编码器(denoising autoencoder)。另外还有一种称为稀疏自编码器(sparse autoencoder)的网络,它在自编码器中引入了正则化项,以去除冗余信息。
“得到参数初始值”是指在多层神经网络中得到最优参数。一个多层神经网络的训练,首先要利用随机数初始化训练样本的参数,然后通过训练样本得到最优参数。但是,如果是层数较多的神经网络,即使使用误差反向传播算法也很难把误差梯度有效反馈到底层,这样就会导致神经网络训练困难。所以,需要使用自编码器计算每层的参数,并将其作为神经网络的参数初始值逐层训练,以便得到更加完善的神经网络模型。

自编码器和受限玻尔兹曼机一样都是两层结构,有输入层和输出层组成。图中输入数据x与对应的连接权重W相乘,再加上偏置b,并经过编码器激活函数f(.)变换后,就可以得到输出y。y = f(Wx+b)。

自编码器是一种基于无监督学习的神经网络,目的在于通过不断调整参数,重构经过维度压缩的输入样本。如下图5.2。重构输入样本的三层神经网络。
自编码器:数据压缩与特征提取的无监督学习方法

自编码器是无监督学习中的重要工具,主要用于数据维度压缩和特征表达。通过训练,自编码器能重构输入样本,其变种如降噪自编码器能去除噪声,稀疏自编码器则通过正则化实现特征选择。栈式自编码器通过多层堆叠实现逐层特征提取。预训练阶段,自编码器的参数被用于初始化深层神经网络,提升训练效果。
最低0.47元/天 解锁文章
666

被折叠的 条评论
为什么被折叠?



