Dive-into-DL-TensorFlow2.0项目解析：Keras实现循环神经网络简明教程

毛炎宝Gardener

于 2025-06-10 09:20:45 发布

阅读量308

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00416/article/details/148552998

Dive-into-DL-TensorFlow2.0项目解析：Keras实现循环神经网络简明教程

Dive-into-DL-TensorFlow2.0 项目地址: https://gitcode.com/gh_mirrors/di/Dive-into-DL-TensorFlow2.0

循环神经网络简介

循环神经网络（RNN）是一种专门用于处理序列数据的神经网络架构。与传统的前馈神经网络不同，RNN具有记忆功能，能够保存之前时间步的信息，这使得它特别适合处理语言模型、时间序列预测等任务。

使用Keras构建RNN模型

在Dive-into-DL-TensorFlow2.0项目中，展示了如何使用Keras简洁地实现基于RNN的语言模型。以下是关键实现步骤：

1. 数据准备

首先需要加载并预处理数据集。项目中使用了周杰伦专辑歌词作为训练数据：

(corpus_indices, char_to_idx, idx_to_char, vocab_size) = d2l.load_data_jay_lyrics()

这里将歌词文本转换为字符索引表示，并建立了字符与索引之间的映射关系。

2. 定义RNN层

Keras提供了SimpleRNNCell和RNN层来构建RNN网络：

num_hiddens = 256
cell = keras.layers.SimpleRNNCell(num_hiddens, kernel_initializer='glorot_uniform')
rnn_layer = keras.layers.RNN(cell, time_major=True, return_sequences=True, return_state=True)

关键参数说明：

num_hiddens：隐藏单元数量
time_major=True：表示输入数据的第一个维度是时间步
return_sequences=True：返回所有时间步的输出
return_state=True：返回最后一个时间步的隐藏状态

3. 构建完整模型

将RNN层与全连接输出层结合，构建完整的语言模型：

class RNNModel(keras.layers.Layer):
    def __init__(self, rnn_layer, vocab_size, **kwargs):
        super(RNNModel, self).__init__(**kwargs)
        self.rnn = rnn_layer
        self.vocab_size = vocab_size
        self.dense = keras.layers.Dense(vocab_size)

    def call(self, inputs, state):
        X = tf.one_hot(tf.transpose(inputs), self.vocab_size)
        Y, state = self.rnn(X, state)
        output = self.dense(tf.reshape(Y, (-1, Y.shape[-1])))
        return output, state

这个模型将输入序列通过RNN层处理后，再通过全连接层输出每个时间步的预测结果。

训练过程详解

1. 预测函数实现

在训练前，我们先实现一个预测函数来观察模型效果：

def predict_rnn_keras(prefix, num_chars, model, vocab_size, idx_to_char, char_to_idx):
    state = model.get_initial_state(batch_size=1, dtype=tf.float32)
    output = [char_to_idx[prefix[0]]]
    
    for t in range(num_chars + len(prefix) - 1):
        X = np.array([output[-1]]).reshape((1, 1))
        Y, state = model(X, state)
        if t < len(prefix) - 1:
            output.append(char_to_idx[prefix[t + 1]])
        else:
            output.append(int(np.array(tf.argmax(Y, axis=-1))))
    return ''.join([idx_to_char[i] for i in output])

2. 训练函数实现

训练过程包含以下几个关键步骤：

梯度裁剪：防止梯度爆炸
相邻采样：提高训练效率
损失计算：使用交叉熵损失

def train_and_predict_rnn_keras(model, num_hiddens, vocab_size, corpus_indices, 
                              idx_to_char, char_to_idx, num_epochs, num_steps, 
                              lr, clipping_theta, batch_size, pred_period, 
                              pred_len, prefixes):
    # 初始化优化器和损失函数
    loss = tf.keras.losses.SparseCategoricalCrossentropy()
    optimizer = tf.keras.optimizers.SGD(learning_rate=lr)
    
    for epoch in range(num_epochs):
        # 训练过程
        # ...
        
        # 定期预测
        if (epoch + 1) % pred_period == 0:
            # 计算困惑度并输出预测结果
            # ...

模型训练与结果分析

使用以下超参数进行训练：

num_epochs, batch_size, lr, clipping_theta = 250, 32, 1e2, 1e-2
pred_period, pred_len, prefixes = 50, 50, ['分开', '不分开']

训练过程中可以观察到困惑度(perplexity)逐渐下降，表明模型在不断学习。困惑度是语言模型中常用的评估指标，值越小表示模型预测效果越好。

训练输出示例：

epoch 50, perplexity 10.658418, time 0.05 sec
 - 分开始我妈  想要你 我不多 让我心到的 我妈妈 我不能再想 我不多再想 我不要再想 我不多再想 我不要
 - 不分开 我想要你不你 我 你不要 让我心到的 我妈人 可爱女人 坏坏的让我疯狂的可爱女人 坏坏的让我疯狂的

epoch 250, perplexity 1.021437, time 0.05 sec
 - 分开 我我外的家边 你知道这 我爱不看的太  我想一个又重来不以 迷已文一只剩下回忆 让我叫带你 你你的
 - 不分开 我我想想和 是你听没不  我不能不想  不知不觉 你已经离开我 不知不觉 我跟了这节奏 后知后觉

从输出可以看到，随着训练进行，模型生成的文本逐渐变得更有意义，越来越接近真实的歌词风格。