67、自动编码器：原理、类型与应用-优快云博客

本文链接：https://blog.youkuaiyun.com/time3/article/details/151315440

自动编码器：原理、类型与应用

一、自动编码器概述

自动编码器是一种利用神经网络实现编码器和解码器的非线性映射模型。其整体重建函数形式为 (r(x) = f_d(f_e(x)))，模型训练的目标是最小化损失函数 (L(\theta))，常见的损失函数有 (L(\theta) = ||r(x) - x||_2^2) ，更通用的是 (L(\theta) = -\log p(x|r(x)))。

如果隐藏层足够宽，模型可能会学习到恒等函数，为避免这种退化情况，有两种主要方法：
- 欠完备表示 ：使用较窄的瓶颈层，即 (L \ll D)。
- 过完备表示 ：使用 (L \gg D)，但需施加其他正则化方法，如在输入中添加噪声、强制隐藏单元的激活稀疏或对隐藏单元的导数施加惩罚。

二、瓶颈自动编码器

2.1 线性自动编码器

线性自动编码器有一个隐藏层，隐藏单元通过 (z = W_1x) 计算，输出通过 (\hat{x} = W_2z) 重建，其中 (W_1) 是 (L \times D) 矩阵，(W_2) 是 (D \times L) 矩阵，且 (L < D)，所以 (\hat{x} = W_2W_1x = Wx) 是模型的输出。若训练该模型以最小化平方重建误差 (L(W) = \sum_{n=1}^{N} ||x_n - Wx_n||_2^2)，则 (\hat{W}) 是数据经验协方差矩阵前 (L) 个特征向量的正交投影，这等价于主成分分析（PCA）。

2.2 非线性自动编码器

在自动编码器中引入非线性后，得到的模型比 PCA 更强大。以 Fashion MNIST 数据集为例，分别使用 MLP 架构（2 层，瓶颈大小为 30）和基于 CNN 的架构（3 层，3D 瓶颈，64 个通道），采用伯努利似然模型和二元交叉熵作为损失函数。结果表明，该方法能在完全无监督的情况下很好地分离不同类别。

以下是不同架构的相关信息表格：
|架构类型|层数|瓶颈信息|训练轮数|
| ---- | ---- | ---- | ---- |
|MLP|2 层|大小为 30|20 轮|
|CNN|3 层|3D 瓶颈，64 个通道|5 轮|

三、去噪自动编码器

去噪自动编码器是通过在输入中添加噪声，然后训练模型重建原始输入的干净版本。可以通过添加高斯噪声或使用伯努利丢弃来实现。

若使用高斯噪声和平方误差重建训练去噪自动编码器，当 (\sigma \to 0) 时（在模型足够强大且数据充足的情况下），残差近似于数据的得分函数，即 (e(x) \approx \nabla_x \log p(x))。这意味着去噪自动编码器学习到一个向量场，对应于对数数据密度的梯度，靠近数据流形的点将通过采样过程投影到流形上。

以下是去噪自动编码器的操作步骤：
1. 选择噪声添加方式，如高斯噪声或伯努利丢弃。
2. 在输入数据中添加噪声。
3. 训练模型以重建原始的干净输入。
4. 评估模型的重建效果。

四、收缩自动编码器

收缩自动编码器通过添加惩罚项 (\Omega(z, x) = \lambda||\frac{\partial f_e(x)}{\partial x}|| F^2 = \lambda \sum {k} ||\nabla_x h_k(x)||_2^2) 来正则化自动编码器，其中 (h_k) 是第 (k) 个隐藏嵌入单元的值。这是对编码器雅可比矩阵的 Frobenius 范数进行惩罚。

收缩自动编码器的作用是将偏离数据流形的输入“推回”到流形上。为避免模型学习到退化解（编码器将输入乘以小常数 (\epsilon)，解码器再除以 (\epsilon)），可以将编码器和解码器的权重绑定，但使用不绑定的偏置项。不过，由于计算雅可比矩阵的开销较大，收缩自动编码器的训练速度较慢。

以下是收缩自动编码器的操作步骤：
1. 定义惩罚项 (\Omega(z, x))。
2. 将惩罚项添加到重建损失中。
3. 训练模型时考虑惩罚项。
4. 若需要，绑定编码器和解码器的权重。

五、稀疏自动编码器

稀疏自动编码器通过向潜在激活添加稀疏惩罚来正则化，常见的惩罚形式为 (\Omega(z) = \lambda||z|| 1) （活动正则化）。另一种实现稀疏性的方法是使用逻辑单元，计算每个单元 (k) 在小批量中开启的期望时间比例 (q_k)，并确保其接近目标值 (p)，使用正则化器 (\Omega(z {1:L,1:N}) = \lambda \sum_{k} KL (p \parallel q_k))。

以 Fashion MNIST 数据集为例，对具有 300 个隐藏单元的 AE - MLP 进行实验。结果显示，不施加稀疏惩罚时，平均激活值约为 0.4；使用 (\ell_1) 惩罚时，大多数单元始终关闭；使用 KL 惩罚时，约 70% 的神经元平均处于关闭状态，但不会永久关闭，平均激活水平为 0.1。这种稀疏的激发模式与生物大脑中观察到的模式相似。

以下是稀疏自动编码器的操作步骤：
1. 选择稀疏惩罚方式，如 (\ell_1) 惩罚或 KL 惩罚。
2. 定义正则化器。
3. 在训练模型时添加正则化项。
4. 评估模型的稀疏效果。

mermaid 流程图：

graph TD;
    A[输入数据] --> B[添加噪声/稀疏惩罚等操作];
    B --> C[编码器 fe(x)];
    C --> D[隐藏层];
    D --> E[解码器 fd(z)];
    E --> F[输出重建数据];
    F --> G[计算损失函数 L(θ)];
    G --> H[更新模型参数];
    H --> C;

六、变分自动编码器

6.1 原理概述

变分自动编码器（VAE）可以看作是确定性自动编码器的概率版本，其主要优点是它是一个生成模型，可以创建新样本，而自动编码器只是计算输入向量的嵌入。

VAE 结合了两个关键思想：
- 非线性扩展因子分析生成模型 ：将 (p(x|z) = N(x|Wz, \sigma^2I)) 替换为 (p(x|z, \theta) = N(x|f_d(z; \theta), \sigma^2I))，其中 (f_d) 是解码器。
- 识别网络或推理网络 ：创建另一个模型 (q(z|x))，与生成模型同时训练以进行近似后验推理。若假设后验是具有对角协方差的高斯分布，则 (q(z|x, \varphi) = N(z|f_{e,\mu}(x; \varphi), diag(f_{e,\sigma}(x; \varphi))))，其中 (f_e) 是编码器。

6.2 训练 VAEs

由于非线性因子分析模型中的后验推理难以处理，无法计算最大似然估计（MLE）训练所需的精确边际似然 (p(x|\theta))。但可以使用推理网络计算近似后验 (q(z|x))，进而计算证据下界（ELBO）。

训练目标是最大化 (L(\theta, \varphi|D) = E_{x \sim D} [L(\theta, \varphi|x)])，其中单个数据点的 ELBO 为 (L(\theta, \varphi|x) = E_{q_{\varphi}(z|x)} [\log p_{\theta}(x, z) - \log q_{\varphi}(z|x)] = E_{q_{\varphi}(z|x)} [\log p_{\theta}(x|z)] + KL (q_{\varphi}(z|x) \parallel p_{\theta}(z)))。

为了简化计算，使用重参数化技巧，将 (q_{\varphi}(z|x)) 表示为 (z = f_{e,\mu}(x; \varphi) + f_{e,\sigma}(x; \varphi) \odot \epsilon)，其中 (\epsilon \sim N(0, I))。则 ELBO 可重写为 (L(\theta, \varphi|x) = E_{\epsilon \sim N (0,I)} [\log p_{\theta}(x|z = \mu_{\varphi}(x) + \sigma_{\varphi}(x) \odot \epsilon)] - KL (q_{\varphi}(z|x) \parallel p(z)))。

计算损失及其梯度时，需要为每个示例计算 ELBO。ELBO 的第一项通过采样 (\epsilon)，解码生成 (x) 并评估 (\log p(x|z)) 来计算；第二项是两个高斯分布的 KL 散度，有封闭形式 (KL (q \parallel p) = -\frac{1}{2} \sum_{k=1}^{K} [\log \sigma_k^2 - \sigma_k^2 - \mu_k^2 + 1])。

以下是训练 VAEs 的操作步骤：
1. 定义生成模型 (p(x|z, \theta)) 和推理网络 (q(z|x, \varphi))。
2. 计算每个数据点的 ELBO。
3. 使用重参数化技巧简化计算。
4. 最小化 (-E_{x \sim D} [L(\theta, \varphi|x)]) 以更新 (\theta) 和 (\varphi)。

6.3 VAE 与自动编码器的比较

VAE 与自动编码器非常相似，生成模型 (p_{\theta}(x|z)) 类似于解码器，推理网络 (q_{\varphi}(z|x)) 类似于编码器。VAE 的主要优势在于它可以从随机噪声生成新数据，而自动编码器的解码器只能处理训练集中的精确编码输入，对于训练之外的随机输入无法处理。

以 CelebA 数据集为例，训练具有 4 个隐藏层的卷积 AE 和 VAE。结果显示，两者都能较可靠地编码和解码图像，但 VAE 的重建结果稍模糊；VAE 生成的新样本合理，而 AE 生成的样本不佳。

6.4 潜在空间插值

潜在变量模型的一个强大特性是能够生成在两个不同输入的“语义属性”之间插值的样本。具体做法是，设 (x_1) 和 (x_2) 是两个图像，其编码分别为 (z_1 = E_{q(z|x_1)} [z]) 和 (z_2 = E_{q(z|x_2)} [z])，通过计算 (z = \lambda z_1 + (1 - \lambda)z_2)（(0 \leq \lambda \leq 1)），然后解码得到 (E [x|z])，实现潜在空间插值。

6.5 潜在空间向量算术

一些潜在变量模型支持在潜在空间中进行向量加法和减法，以增加或减少所需的“语义变化因子”。例如，对于戴太阳镜的属性，分别计算有和没有该属性的图像的平均嵌入 (z^+) 和 (z^-)，定义偏移向量 (\Delta = z^+ - z^-)。向新点 (z) 添加 (\Delta) 的正倍数可增加该属性，减去则减少该属性。

以下是 VAE 相关特性的总结表格：
|特性|描述|
| ---- | ---- |
|生成新数据|从随机噪声生成新样本|
|潜在空间插值|在两个输入的语义属性间插值|
|潜在空间向量算术|在潜在空间进行向量加减|

mermaid 流程图：

graph TD;
    A[输入数据 x] --> B[推理网络 q(z|x, φ)];
    B --> C[采样 z];
    C --> D[生成模型 p(x|z, θ)];
    D --> E[输出重建数据 x'];
    E --> F[计算 ELBO];
    F --> G[更新 θ 和 φ];
    G --> B;

七、不同自动编码器的性能对比

为了更直观地了解各种自动编码器的性能差异，我们从多个方面对上述几种自动编码器进行对比。
|自动编码器类型|优点|缺点|适用场景|
| ---- | ---- | ---- | ---- |
|瓶颈自动编码器|线性情况下等价于 PCA，非线性时比 PCA 更强大，能学习有用的低维表示|隐藏层设计不当可能导致退化|数据降维、特征提取|
|去噪自动编码器|能学习数据的得分函数，可将靠近数据流形的点投影到流形上|噪声添加方式和强度选择需要经验|处理有噪声的数据、数据修复|
|收缩自动编码器|能将偏离数据流形的输入“推回”流形，避免退化|计算雅可比矩阵开销大，训练速度慢|需要对编码器进行正则化的场景|
|稀疏自动编码器|激发模式与生物大脑相似，可实现特征的稀疏表示|不同惩罚方式效果差异大，参数调整较复杂|需要提取稀疏特征的场景|
|变分自动编码器|是生成模型，可生成新样本，支持潜在空间操作|重建结果可能较模糊|图像生成、数据增强、潜在空间分析|

八、自动编码器的应用领域

自动编码器在多个领域都有广泛的应用，以下是一些常见的应用场景及对应的自动编码器类型：

8.1 数据降维与特征提取

瓶颈自动编码器 ：在处理高维数据时，如基因数据、文本数据等，通过学习数据的低维表示，可有效减少数据维度，同时保留重要信息。
稀疏自动编码器 ：可提取数据中的稀疏特征，对于图像、音频等数据，能找到最具代表性的特征，用于后续的分类、聚类等任务。

8.2 图像重建与修复

去噪自动编码器 ：可用于去除图像中的噪声，如椒盐噪声、高斯噪声等，恢复图像的原始信息。
变分自动编码器 ：不仅能重建图像，还能生成新的图像，可用于图像生成、图像编辑等领域。

8.3 异常检测

收缩自动编码器 ：通过对编码器的正则化，使模型对正常数据的表示更加稳定，当输入异常数据时，重建误差会显著增大，从而可检测出异常数据。
变分自动编码器 ：通过学习正常数据的分布，当输入数据的潜在表示偏离正常分布时，可判断为异常数据。

8.4 生成式建模

变分自动编码器 ：作为生成模型，可从随机噪声中生成新的数据样本，在图像生成、视频生成、文本生成等领域有广泛应用。

以下是自动编码器应用领域的 mermaid 流程图：

graph LR;
    A[数据降维与特征提取] --> B[瓶颈自动编码器];
    A --> C[稀疏自动编码器];
    D[图像重建与修复] --> E[去噪自动编码器];
    D --> F[变分自动编码器];
    G[异常检测] --> H[收缩自动编码器];
    G --> I[变分自动编码器];
    J[生成式建模] --> I;

九、自动编码器的发展趋势

随着深度学习技术的不断发展，自动编码器也在不断演进和创新，未来可能会朝着以下几个方向发展：

9.1 更强大的模型架构

研究人员会不断探索更复杂、更有效的模型架构，如结合注意力机制、残差连接等，以提高自动编码器的性能和表达能力。

9.2 与其他模型的融合

自动编码器可能会与生成对抗网络（GAN）、强化学习等其他模型相结合，发挥各自的优势，创造出更强大的生成模型和智能系统。

9.3 跨领域应用拓展

自动编码器的应用领域将不断拓展，如在医疗、金融、交通等领域的应用会越来越广泛，为解决实际问题提供更有效的方法。

9.4 理论研究深入

对自动编码器的理论研究将更加深入，如对其收敛性、泛化能力、稳定性等方面的研究，为模型的设计和应用提供更坚实的理论基础。

以下是自动编码器发展趋势的列表：
1. 更强大的模型架构
2. 与其他模型的融合
3. 跨领域应用拓展
4. 理论研究深入

十、总结

自动编码器作为一种重要的深度学习模型，具有多种类型和丰富的应用场景。不同类型的自动编码器通过不同的正则化方法和设计思路，实现了数据降维、特征提取、图像重建、异常检测、生成式建模等多种功能。

在实际应用中，需要根据具体的任务需求和数据特点选择合适的自动编码器类型，并合理调整模型参数。同时，随着技术的不断发展，自动编码器在未来将有更广阔的发展空间和应用前景。

希望本文能帮助读者更好地理解自动编码器的原理、类型和应用，为相关领域的研究和实践提供有益的参考。

以下是对不同自动编码器的总结表格：
|自动编码器类型|核心思想|关键操作|主要应用|
| ---- | ---- | ---- | ---- |
|瓶颈自动编码器|通过窄瓶颈层学习低维表示|线性或非线性映射|数据降维、特征提取|
|去噪自动编码器|添加噪声训练以重建干净输入|噪声添加与重建|去噪、数据修复|
|收缩自动编码器|添加雅可比矩阵惩罚项进行正则化|计算雅可比矩阵并惩罚|编码器正则化|
|稀疏自动编码器|添加稀疏惩罚实现特征稀疏表示|选择惩罚方式并调整参数|稀疏特征提取|
|变分自动编码器|结合生成模型和推理网络进行概率建模|计算 ELBO 并更新参数|图像生成、潜在空间操作|

mermaid 流程图：

graph LR;
    A[自动编码器] --> B[瓶颈自动编码器];
    A --> C[去噪自动编码器];
    A --> D[收缩自动编码器];
    A --> E[稀疏自动编码器];
    A --> F[变分自动编码器];
    B --> G[数据降维];
    B --> H[特征提取];
    C --> I[去噪];
    C --> J[数据修复];
    D --> K[编码器正则化];
    E --> L[稀疏特征提取];
    F --> M[图像生成];
    F --> N[潜在空间操作];