生成模型---自编码器（Auto Encoder，AE）

最新推荐文章于 2025-06-25 15:20:36 发布

原创最新推荐文章于 2025-06-25 15:20:36 发布 · 1.3k 阅读

CC 4.0 BY-SA版权

文章标签：

自编码器（Autoencoder，AE）是一种无监督学习模型，通常用于数据的降维、特征学习、数据压缩等任务。它由两部分组成：编码器（Encoder）和解码器（Decoder），并通过重建原始输入来训练网络。自编码器本质上是一种通过学习数据的低维表示来还原原始数据的模型。

1. 自编码器的结构

传统自编码器由三个主要部分组成：编码器（Encoder），潜在空间（Latent Space），解码器（Decoder）。

编码器
编码器的作用是将输入数据 $X$ 映射到一个低维的潜在空间 $Z$ 中，通常通过神经网络进行映射。编码器的输出是潜在空间的编码（或表示） $Z = f (X)$ ，它捕捉了输入数据中的重要特征。
编码器通常通过多个全连接层（或者卷积层）来处理输入数据，最后将数据压缩到一个低维空间。
潜在空间
潜在空间 $Z$ 是编码器输出的一个低维表示，包含了输入数据的压缩信息。通过潜在空间，模型能够捕捉到数据的主要结构或特征。
自编码器的目标就是学会如何将输入数据压缩到这个低维空间，压缩的程度由潜在空间的维度决定。
解码器
解码器的作用是从潜在空间的表示 $Z$ 中恢复出尽可能接近原始输入数据 $X$ 的重建数据 $X^{'}$ 。解码器通常与编码器具有对称结构，解码过程是编码过程的逆过程。
解码器将低维的潜在表示 $Z$ 转换为高维的重建数据 $X^{'}$ ，通常也通过全连接或卷积层进行处理。

2. 自编码器的训练目标

自编码器的训练目标是最小化输入数据 $X$ 和重建数据 $X^{'}$ 之间的差异，通常使用重建误差作为损失函数。最常见的损失函数是 均方误差 MSE 或 交叉熵（对于二值数据）：

均方误差MSE：常用于连续数据 $L(X,X′)=∥X−X′∥2.\mathcal{L}(X, X') = \| X - X' \|^2.$
交叉熵损失：常用于处理二值数据或分类问题 $L(X,X′)=−∑i=1n[Xilog⁡(Xi′)+(1−Xi)log⁡(1−Xi′)].\mathcal{L}(X, X') = -\sum_{i=1}^{n} \left[ X_i \log(X'_i) + (1 - X_i) \log(1 - X'_i) \right].$

通过反向传播和梯度下降，模型不断优化编码器和解码器的参数，最小化重建误差，从而学到如何有效地压缩和恢复数据。

3. 自编码器的特点与应用

无监督学习：自编码器是一种无监督学习算法，不需要标签数据进行训练。它只依赖输入数据本身，通过学习数据的结构来进行有效的编码和解码。
特征提取：自编码器能够学习输入数据的低维表示（潜在空间），从而实现数据的特征抽象和压缩。这种低维表示包含了数据的主要特征，并能用于下游任务（如分类、回归、聚类等）。
数据压缩与去噪：自编码器通过编码器将输入数据压缩到一个较低维度的潜在空间，因此它可以用于数据压缩。变体如去噪自编码器（DAE）还可以用于去除输入数据中的噪声，训练时，输入的 $X_n$ 并不是纯净的原始数据 $X$ ，解码器基于潜在空间的表示 $Z$ ，输出重建数据 $X^{'}$ ，最小化 $X^{'}$ 与原始干净数据 $X$ 之间的差异。
重建能力：自编码器的核心在于它能通过解码器重建输入数据，这使得它能学习到数据的内在结构。例如，经典的自编码器可以用于图像重建或降噪任务。