TensorFlow课程：深入理解自编码器原理与实现-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00031/article/details/148375818

TensorFlow课程：深入理解自编码器原理与实现

TensorFlow-Course 项目地址: https://gitcode.com/gh_mirrors/tens/TensorFlow-Course

自编码器概述

自编码器(Autoencoder)是一种特殊类型的神经网络架构，其核心思想是通过无监督学习方式将输入数据编码为低维表示，然后再解码重建原始输入。这种网络结构由两部分组成：编码器(Encoder)和解码器(Decoder)。

编码器负责将高维输入数据压缩为低维的潜在空间表示（称为编码或code），而解码器则尝试从这个低维表示中重建原始输入。自编码器在特征提取、数据降维、异常检测等领域有着广泛应用。

自编码器的主要类型

1. 欠完备自编码器(Undercomplete Autoencoders)

欠完备自编码器是最基础的变体，其编码维度小于输入维度。这种结构迫使网络学习数据中最显著的特征。当使用线性激活函数时，欠完备自编码器实际上等同于主成分分析(PCA)。而引入非线性激活函数后，它就成为了PCA的非线性推广。

2. 正则化自编码器(Regularized Autoencoders)

这类自编码器不限制编码维度，而是通过添加各种正则化项来防止网络简单地记忆输入数据：

稀疏自编码器(Sparse Autoencoders)：在损失函数中加入稀疏性约束，迫使网络学习稀疏表示
去噪自编码器(Denoising Autoencoders, DAE)：输入被故意加入噪声，网络需要先去除噪声再重建原始输入
收缩自编码器(Contractive Autoencoders, CAE)：学习对输入微小变化具有鲁棒性的表示

3. 变分自编码器(Variational Autoencoders)

变分自编码器是生成模型，它通过学习数据的概率分布来生成新样本，而不是简单地复制输入。

TensorFlow实现欠完备自编码器

下面我们使用TensorFlow实现一个处理MNIST手写数字的欠完备自编码器。

网络架构设计

我们构建一个3层编码器和3层解码器的结构：

import tensorflow.contrib.layers as lays

def autoencoder(inputs):
    # 编码器部分
    # 32x32x1 → 16x16x32 → 8x8x16 → 2x2x8
    net = lays.conv2d(inputs, 32, [5, 5], stride=2, padding='SAME')
    net = lays.conv2d(net, 16, [5, 5], stride=2, padding='SAME')
    net = lays.conv2d(net, 8, [5, 5], stride=4, padding='SAME')
    
    # 解码器部分
    # 2x2x8 → 8x8x16 → 16x16x32 → 32x32x1
    net = lays.conv2d_transpose(net, 16, [5, 5], stride=4, padding='SAME')
    net = lays.conv2d_transpose(net, 32, [5, 5], stride=2, padding='SAME')
    net = lays.conv2d_transpose(net, 1, [5, 5], stride=2, padding='SAME', 
                               activation_fn=tf.nn.tanh)
    return net

编码器使用步长为2的卷积层逐步下采样，最终将32x32的图像压缩为2x2x8的编码。解码器则使用转置卷积逐步上采样，重建原始图像。

数据预处理

由于MNIST图像原始大小为28x28，我们将其调整为32x32以便于网络处理：

import numpy as np
from skimage import transform

def resize_batch(imgs):
    imgs = imgs.reshape((-1, 28, 28, 1))
    resized_imgs = np.zeros((imgs.shape[0], 32, 32, 1))
    for i in range(imgs.shape[0]):
        resized_imgs[i, ..., 0] = transform.resize(imgs[i, ..., 0], (32, 32))
    return resized_imgs

模型训练

定义损失函数和优化器：

import tensorflow as tf

ae_inputs = tf.placeholder(tf.float32, (None, 32, 32, 1))  # 输入占位符
ae_outputs = autoencoder(ae_inputs)  # 创建自编码器网络

# 定义损失函数和优化器
loss = tf.reduce_mean(tf.square(ae_outputs - ae_inputs))  # 均方误差
train_op = tf.train.AdamOptimizer(learning_rate=0.001).minimize(loss)

init = tf.global_variables_initializer()

训练过程：

from tensorflow.examples.tutorials.mnist import input_data

batch_size = 500
epoch_num = 5

mnist = input_data.read_data_sets("MNIST_data", one_hot=True)
batch_per_ep = mnist.train.num_examples // batch_size

with tf.Session() as sess:
    sess.run(init)
    for ep in range(epoch_num):
        for batch_n in range(batch_per_ep):
            batch_img, _ = mnist.train.next_batch(batch_size)
            batch_img = resize_batch(batch_img)
            _, c = sess.run([train_op, loss], feed_dict={ae_inputs: batch_img})
            print(f'Epoch: {ep+1} - cost= {c:.5f}')
    
    # 测试网络
    test_img, _ = mnist.test.next_batch(50)
    test_img = resize_batch(test_img)
    recon_img = sess.run(ae_outputs, feed_dict={ae_inputs: test_img})

结果可视化

训练完成后，我们可以对比原始图像和重建图像：

import matplotlib.pyplot as plt

plt.figure(1, figsize=(10,5))
plt.title('Reconstructed Images')
for i in range(50):
    plt.subplot(5, 10, i+1)
    plt.imshow(recon_img[i, ..., 0], cmap='gray')
plt.figure(2, figsize=(10,5))
plt.title('Input Images')
for i in range(50):
    plt.subplot(5, 10, i+1)
    plt.imshow(test_img[i, ..., 0], cmap='gray')
plt.show()