TensorLayer项目教程：使用静态图构建MNIST分类的多层感知机-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00891/article/details/148464266

TensorLayer项目教程：使用静态图构建MNIST分类的多层感知机

TensorLayer Deep Learning and Reinforcement Learning Library for Scientists and Engineers 项目地址: https://gitcode.com/gh_mirrors/te/TensorLayer

前言

TensorLayer是一个基于TensorFlow的高级深度学习库，它提供了简洁高效的API来构建和训练神经网络。本教程将详细介绍如何使用TensorLayer的静态图模式构建一个多层感知机(MLP)模型来完成MNIST手写数字分类任务。

环境准备

在开始之前，请确保已安装以下Python库：

TensorFlow 2.x
TensorLayer
NumPy

MNIST数据集加载

TensorLayer提供了便捷的数据集加载接口，我们可以使用tl.files.load_mnist_dataset()函数直接获取MNIST数据集：

X_train, y_train, X_val, y_val, X_test, y_test = tl.files.load_mnist_dataset(shape=(-1, 784))

这个函数会自动下载MNIST数据集(如果本地不存在)并返回训练集、验证集和测试集。参数shape=(-1, 784)表示将28×28的图片展平为784维的向量。

模型构建

我们使用TensorLayer的Model API来构建一个多层感知机模型：

def get_model(inputs_shape):
    ni = Input(inputs_shape)
    nn = Dropout(keep=0.8)(ni)
    nn = Dense(n_units=800, act=tf.nn.relu)(nn)
    nn = Dropout(keep=0.8)(nn)
    nn = Dense(n_units=800, act=tf.nn.relu)(nn)
    nn = Dropout(keep=0.8)(nn)
    nn = Dense(n_units=10, act=tf.nn.relu)(nn)
    M = Model(inputs=ni, outputs=nn, name="mlp")
    return M

这个模型包含以下组件：

输入层：接受形状为[None, 784]的输入
第一个Dropout层：保留概率为0.8，用于防止过拟合
第一个全连接层：800个神经元，使用ReLU激活函数
第二个Dropout层
第二个全连接层：800个神经元，使用ReLU激活函数
第三个Dropout层
输出层：10个神经元对应10个数字类别

注意输出层使用了ReLU激活函数而不是softmax，这是因为在计算交叉熵损失时，TensorLayer内部已经实现了softmax计算，这样可以提高计算效率。

模型训练

训练配置

我们配置以下训练参数：

训练轮数：500
批量大小：500
优化器：Adam，学习率0.0001
打印频率：每5轮打印一次训练和验证指标

n_epoch = 500
batch_size = 500
print_freq = 5
train_weights = MLP.trainable_weights
optimizer = tf.optimizers.Adam(lr=0.0001)

训练循环

训练过程使用标准的梯度下降流程：

启用Dropout(训练模式)
前向传播计算logits
计算交叉熵损失
反向传播计算梯度
使用优化器更新权重

for epoch in range(n_epoch):
    # ... 省略数据加载代码 ...
    MLP.train()  # 启用Dropout
    with tf.GradientTape() as tape:
        _logits = MLP(X_batch)
        _loss = tl.cost.cross_entropy(_logits, y_batch, name='train_loss')
    grad = tape.gradient(_loss, train_weights)
    optimizer.apply_gradients(zip(grad, train_weights))

模型评估

在评估阶段，我们需要：

禁用Dropout(评估模式)
计算训练集和验证集的损失和准确率
定期打印指标

MLP.eval()  # 禁用Dropout
# 计算训练集指标
for X_batch, y_batch in tl.iterate.minibatches(X_train, y_train, batch_size, shuffle=False):
    _logits = MLP(X_batch)
    train_loss += tl.cost.cross_entropy(_logits, y_batch, name='eval_loss')
    train_acc += np.mean(np.equal(np.argmax(_logits, 1), y_batch))

模型测试

训练完成后，我们在测试集上评估模型性能：

MLP.eval()
test_loss, test_acc, n_iter = 0, 0, 0
for X_batch, y_batch in tl.iterate.minibatches(X_test, y_test, batch_size, shuffle=False):
    _logits = MLP(X_batch)
    test_loss += tl.cost.cross_entropy(_logits, y_batch, name='test_loss')
    test_acc += np.mean(np.equal(np.argmax(_logits, 1), y_batch))

关键点解析

Dropout的使用：在训练和评估阶段需要正确设置Dropout的状态，训练时使用MLP.train()，评估时使用MLP.eval()。
损失函数的选择：虽然输出层使用ReLU激活，但tl.cost.cross_entropy内部已经包含了softmax计算，这与tf.nn.sparse_softmax_cross_entropy_with_logits的行为一致。
批量训练：使用tl.iterate.minibatches可以方便地进行批量数据加载和打乱。
静态图模式：这个示例展示了TensorLayer的静态图使用方式，模型构建阶段定义计算图，执行阶段运行计算图。