李宏毅深度学习--《Deep Auto-encoder》_deep autoencoder-优快云博客

本文链接：https://blog.youkuaiyun.com/GuoShao_/article/details/126889553

自动编码器(Auto-encoder)包含编码器与解码器，用于数据的压缩与重构。在无监督学习中，编码器压缩输入数据形成特征向量，解码器则尝试从该向量重建原始数据。由于Encoder和Decoder不能单独训练，它们一起构成网络，输入和输出为同一数据集。PCA作为线性降维的Auto-encoder，而深度自动编码器(DeepAuto-encoder)通过多层隐藏层捕获更多信息。De-noising Auto-encoder通过在输入中引入噪声，学习去除噪声的能力。在文本检索和图像检索任务中，Auto-encoder能有效地提取特征，提高检索效果。预训练DNN中，Auto-encoder用于初始化参数，减少过拟合。对于CNN，反卷积层和反池化层用于解码过程，实现图像信息的有效提取和重构。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

引言

Auto-encoder 包括两个过程：

Encoder(编码器)
Decoder(解码器)

Encoder+Decoder的组合，吴恩达在讲RNN机器翻译的时候就讲到过：“编码网络”(encoder network)做的事情就是对原始数据进行压缩降维，形成一个精简的 $features\ vector$ ，“解码网络”(decoder network)做的事情就是对压缩过后的 $features\ vector$ 进行信息提取，输出对应的翻译文本。

但是Encoder和Decoder都是无监督学习；即对于encoder network的学习，我们只能提供输入，不能提供output( $features\ vector$ )；同理，对于decoder network，只能提供output(正确的翻译文本)，不能提供input( $features\ vector$ )。

以手写数字识别为例子，如下图；对于上面的Encoder过程，只能提供 $input\ image$ ，而对于输出 $co d e$ 我们并不能提供；对于下面的Decoder过程，只能提供 $output\ image$ ，而对于输入 $co d e$ 我们并不能提供；

在这里插入图片描述

因此Encoder和Decoder不能够分开单独训练，需要将它们连接起来，同时对Encoder和Decoder进行训练；此时网络的输入和输出都是我们现有的手写数据集 $iam g e$ 了，压缩后的 $features\ vector$ 只需要从中间的隐藏层去获取。

之前的PCA降维也可以看作是Auto-encoder，它类似于只有一个linear hidden layer的神经网络；压缩提取的信息 $features\ vector$ 就是各 $co m p o n e n t$ 的权重，输出就是 $\hat{x}$ 。( $\hat{x}$ 是用 $co m p o n e n t$ 近似 $x$ 的结果，即 $x≈\hat{x}$ )

接下来Auto-encoder的训练过程就是最小化 $(x-\hat{x})^2$ ,如下图所示：

在这里插入图片描述

这里的encode的 $W$ 和decode $W^T$ 是转置的关系，因为 $x≈Wc=\hat{x}$ ，W是正交矩阵， $WW^T=E$ ，所以 $W^Tx≈c$ 。因此是互为转置的关系。

因为Auto-encoder通常是两头宽中间窄的结构，所以中间的 $hidden\ layer$ 通常叫做瓶颈层(Bottleneck later)。

PCA是具有一个 $hidden\ layer$ 的Auto-encoder，而Deep Auto-encoder是一个具有更多 $hidden\ layer$ 的Auto-encoder。下图就是一个Deep Auto-encoder，中间的 $b o ttl e$ 就是瓶颈层，也是压缩后的 $feature\ vector$ 。

在这里插入图片描述

如果按照之前 $PC A$ 的思路，Deep Auto-encoder中的encode的 $W_i$ 与decoder的 $W_i^T$ 应该一致对应的关系；这可以通过赋予相同的初始值做到，好处在于可以减少一半的参数，有效避免过拟合。
但在实际操作中没必要这样做，可以直接对网络进行训练不用确保encode与decoder的参数要一致。

下图是使用PCA和Deep Auto-encoder对手写数字数据集进行编码和解码的结果，可以看出Deep Auto-encoder的效果会更改一些。
在这里插入图片描述

分别使用PCA和Deep Auto-encoder对手写数字数据集将手写数据集降维到2维进行可视化，结果如下：
在这里插入图片描述

可以看出，PCA降维的结果不同类别的数据会混杂在一起，而Deep Auto-encoder会将不同类别的数据分开。

De-noising auto-encoder

还有一种auto-encoder叫做De-noising auto-encoder(自动去噪编码器)；它与之前的auto-encoder不同在于会对输入加入一些噪音，如下图：
在这里插入图片描述

这里需要注意的是，最后的目标是让 $x$ 和 $\hat{x}$ 尽可能的相近，而不是加了噪音后的 $x^{'}$ 。这样编码器就会学习到如何过滤噪声这件事。

Text Retrieval

auto-encoder可以应用于Text Retrieval(文本检索)。

在Text Retrieval任务中，会将需要dataset中的文本压缩表示成 $Vector\ Space$ 中的一个 $v ec t or$ ；同时将用户检索的词汇 $q u ery$ 也压缩表示成 $Vector\ Space$ 中的一个 $v ec t or$ 。
在这里插入图片描述

然后计算 $q u ery$ 和dataset中的文本的相似度，这里的相似度可以使用内积或者余弦相似度(cos-similarity)；选取最相似的文本作为检索返回即可。

Text Retrieval的表现好坏与dataset中的文本和 $q u ery$ 转换成 $v ec t or$ 后，是否能够有效的表示原来的的信息相关。

Bag-of-word

其中一种获取 $v ec t or$ 方法就是Bag-of-word。

$v ec t or$ 的维度与词汇总数相同，某一维的原始值表示该词汇在文本中出现的次数；此外还可以为各维添加相应的权重，常用词乘上较低的权重，以降低常用词的重要性。

Bag-of-word缺点在于不能捕捉semantic(语义)，因为词与词之间是独立，没有联系的。例如不能够捕捉到“台大”和“台湾大学”其实是一个东西。但auto-encoder可以做到这件事。

auto-encoder and Bag-of-word

Bag-of-word直接表示文章的效果不太好，但是可以将它当作auto-encoder的输入，通过auto-encoder压缩来获取有效的 $v ec t or$ 。

如下图，将Bag-of-word作为encode的输入，为了可视化，这里压缩到2维。

在这里插入图片描述

可视化结果如下，每个点都代表一个文本，相同的颜色代表同类型的文本。在进行文本检索时，将用户的检索关键词 $q u ery$ 投影到这个二维空间，找出相似度最接近的文本即可。

在这里插入图片描述

之前矩阵分解中讲到的LSA对文本进行压缩可视化的结果如下：
在这里插入图片描述
可以看出效果并没有那么好。

Similar Image Search

auto-encoder可以应用于Similar Image Search(图像检索)上。

如果对于图像的检索直接使用像素( $p i x e l$ )进行计算，效果会非常的差。如下图，对MJ使用像素来检索最相似的图片，得到的结果并不是并不好。

在这里插入图片描述

正确的做法是先使用auto-encoder对图像进行信息提取，压缩成一个 $v ec t or$ ；在将压缩后的 $v ec t or$ 作为检索的输入。

encoder过程如下图所示：

在这里插入图片描述

对压缩的 $v ec t or$ 进行解码，原图与解码后的结果如下图；可以看出压缩后的 $v ec t or$ 能够有效的保留原图片的重要信息。
在这里插入图片描述

下图是使用压缩后的 $v ec t or$ 检索到的结果，与之前相比表现显著提升，检索到的都是人脸了。

在这里插入图片描述

使用auto-encoder先对图像进行压缩的好处：

参考博文

Auto-encoder可以通过降维提取出一张图像中最有用的特征信息，包括pixel与pixel之间的关系
降维之后数据的size变小了，这意味着模型所需的参数也变少了，同样的数据量对参数更少的模型来说，可以训练出更精确的结果，一定程度上避免了过拟合的发生
Auto-encoder是一个无监督学习的方法，数据不需要人工打上标签，这意味着我们只需简单处理就可以获得大量的可用数据

Pre-training DNN

在神经网络的训练中，一般会使用pre-training来初始化参数；Auto-encoder可以应用于神经网络的参数预训练的过程。

重新训练所有权重系数，初始始参数值由之前的模型训练得到，这一过程称为pre-training(预训练)；之后，不断调试、优化的过程称为fine-tuning(微调)。

我们要对下图的神经网络进行初始化参数：

在这里插入图片描述
流程如下：

首先先对第一层 $hidden\ layer$ 使用Auto-encoder进行预训练：

根据第一层 $hidden\ layer$ 构建一个Auto-encoder模型：

在这里插入图片描述
对这个Auto-encoder模型进行训练，得到参数 $W^1$ ，然后固定 $W^1$ 不改动。

需要注意的是，输入 $784$ 升维到 $1000$ 再降维到 $784$ 维，这里的升维的过程可能会出现编码前后原封不动的情况。
为此，可以为瓶颈层添加正则项，使瓶颈层的输出值得分布尽可能的分散。

然后根据第二层 $hidden\ layer$ 构建一个Auto-encoder模型：
在这里插入图片描述
注意这里得 $W^1$ 是固定不变的， $x$ 通过 $W^1$ 得到这个Auto-encoder模型的输入。

对这个Auto-encoder模型进行训练，得到参数 $W^2$ ，然后固定 $W^2$ 不改动。

后面同理，根据第三层 $hidden\ layer$ 构建一个Auto-encoder模型：
在这里插入图片描述
对这个Auto-encoder模型进行训练，得到参数 $W^3$ ，然后固定 $W^3$ 不改动。

接下来将 $W^1、W^2、W^3$ 用于神经网络参数的预训练，第四层的 $W^4$ 进行随机初始化参数，如下图；接下来需要对整个神经网模型进行反向传播，因为 $W^1、W^2、W^3$ 都是比较好的参数了，在训练过程中只需要进行微调。

在这里插入图片描述

$W^4$ 随机初始化的原因：
【个人理解】
前面几层的工作类是于特征提取，例如进行人脸识别，前面几层的工作就是找到人的嘴巴、耳朵和鼻子。
而最后一层是任务的输出，对于Auto-encoder模型来说，最后一层的任务是将前几层提取到的人的嘴巴、耳朵和鼻子组合成一个和输入很像的人脸。
但是神经网络中的任务并不是这个，假设神经网络的任务是识别是否存在人脸；这时候 $W^4$ 也进行预训练，这其实是无效的，因为Auto-encoder模型的任务和神经网络的任务不一样，再训练的过程中还是会进行大幅度的调整。
而对于 $W^1、W^2、W^3$ ，神经网络是可以使用这些参数完成任务的，所以在训练时只需要进行微调。