47、循环神经网络与Transformer模型在序列数据建模及文本生成中的应用

RNN与Transformer在文本生成中的应用

vim8coder

于 2025-11-07 12:32:47 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏： Python机器学习实战精讲文章标签： RNN Transformer 自注意力机制

本文链接：https://blog.youkuaiyun.com/vim8coder/article/details/154891186

Python机器学习实战精讲专栏收录该内容

56 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

循环神经网络与Transformer模型在序列数据建模及文本生成中的应用

在序列数据建模领域，循环神经网络（RNN）和Transformer模型是两种非常重要的工具。本文将详细介绍如何使用RNN进行文本生成，以及Transformer模型的自注意力机制，同时还会涉及生成对抗网络（GAN）的相关内容。

一、RNN模型的文本生成

在完成RNN模型的训练后，我们可以对其进行评估，以给定的短字符串为起点生成新的文本。

1. 生成新文本的基本原理

RNN模型为每个唯一字符返回大小为80的对数几率（logits）。通过softmax函数，这些对数几率可以很容易地转换为某个特定字符作为下一个字符出现的概率。为了预测序列中的下一个字符，我们可以简单地选择对数几率值最大的元素，这等同于选择概率最高的字符。但为了避免模型总是生成相同的文本，我们使用 tf.random.categorical() 函数从输出中随机采样。

以下是一个简单的示例，展示了如何使用 tf.random.categorical() 从三个类别[0, 1, 2]中生成随机样本，输入的对数几率为[1, 1, 1]：

import tensorflow as tf

tf.random.set_seed(1)
logits = [[1.0, 1.0, 1.0]]
print('Probabilities:', tf.math.softmax(logits).numpy()[0])
samples = tf.random.categorical(
    logits=logits, num_samples=10)
tf.print(samples.numpy())

输出结果显示，在给定的对数几率下，每个类别具有相同的概率。如果样本量足够大，我们期望每个类别的出现次数约为样本量的1/3。当我们将对数几率改为[1, 1, 3]时，类别2的出现次数会更多。

2. 定义 `sample()` 函数生成新文本

为了根据模型计算的对数几率生成新文本，我们定义了 sample() 函数。该函数接收一个短的起始字符串 starting_str ，并生成一个新的字符串 generated_str 。具体步骤如下：
1. 将起始字符串编码为整数序列 encoded_input 。
2. 将 encoded_input 传递给RNN模型计算对数几率。
3. 取输出对数几率的最后一个元素，使用 tf.random.categorical() 生成一个新样本。
4. 将新样本转换为字符，并追加到 generated_str 的末尾。
5. 重复步骤2 - 4，直到生成的字符串达到所需的长度。

以下是 sample() 函数的代码实现：

def sample(model, starting_str,
           len_generated_text=500,
           max_input_length=40,
           scale_factor=1.0):
    encoded_input = [char2int[s] for s in starting_str]
    encoded_input = tf.reshape(encoded_input, (1, -1))

    generated_str = starting_str

    model.reset_states()
    for i in range(len_generated_text):
        logits = model(encoded_input)
        logits = tf.squeeze(logits, 0)

        scaled_logits = logits * scale_factor
        new_char_indx = tf.random.categorical(
            scaled_logits, num_samples=1)

        new_char_indx = tf.squeeze(new_char_indx)[-1].numpy()

        generated_str += str(char_array[new_char_indx])

        new_char_indx = tf.expand_dims([new_char_indx], 0)
        encoded_input = tf.concat(
            [encoded_input, new_char_indx],
            axis=1)
        encoded_input = encoded_input[:, -max_input_length:]

    return generated_str

我们可以使用以下代码生成新文本：

tf.random.set_seed(1)
print(sample(model, starting_str='The island'))

从生成的文本可以看出，模型生成的大多是正确的单词，有些句子也部分有意义。我们还可以通过调整训练参数，如训练输入序列的长度、模型架构和采样参数（如 max_input_length ）来进一步优化生成的文本。

3. 控制生成文本的可预测性

为了控制生成样本的可预测性，我们可以在将RNN模型计算的对数几率传递给 tf.random.categorical() 进行采样之前对其进行缩放。缩放因子 α 可以被解释为物理学中温度的倒数。较高的温度会导致更多的随机性，而较低的温度则会使生成的文本更具可预测性。

以下代码展示了不同缩放因子对概率的影响：

import numpy as np

logits = np.array([[1.0, 1.0, 3.0]])
print('Probabilities before scaling:        ',
      tf.math.softmax(logits).numpy()[0])
print('Probabilities after scaling with 0.5:',
      tf.math.softmax(0.5*logits).numpy()[0])
print('Probabilities after scaling with 0.1:',
      tf.math.softmax(0.1*logits).numpy()[0])

通过比较不同缩放因子下生成的文本，我们可以发现，当 α = 0.5 时，生成的文本更具随机性；而当 α = 2.0 时，生成的文本更具可预测性。这表明在生成文本的新颖性和正确性之间存在一种权衡。

二、Transformer模型的自注意力机制

虽然RNN在序列数据建模中表现出色，但Transformer模型在多个自然语言处理任务中已经显示出优于基于RNN的序列到序列（seq2seq）模型的性能。Transformer模型基于自注意力机制，能够建模输入和输出序列之间的全局依赖关系。

1. 基本的自注意力机制

为了理解自注意力机制的基本思想，我们假设有一个长度为T的输入序列 x(0), x(1), ..., x(T) 和一个长度相同的输出序列 o(0), o(1), ..., o(T) 。每个元素 x(t) 和 o(t) 都是大小为d的向量。自注意力机制的目标是建模输出序列中每个元素与输入元素之间的依赖关系，它由三个阶段组成：
1. 计算重要性权重 ：基于当前元素与序列中所有其他元素的相似度计算重要性权重。具体来说，对于第i个输入元素，其与第j个元素的相似度通过点积计算： ω_ij = x(i)^T * x(j) 。
2. 归一化权重 ：使用softmax函数对计算得到的权重进行归一化，得到最终的权重 W_ij 。
3. 计算注意力值 ：将归一化后的权重与相应的序列元素相结合，计算注意力值。对于第i个输入元素，其输出值 o(i) 是所有输入序列的加权和： o(i) = ∑(W_ij * x(j)) ，其中j从0到T。

以下是自注意力操作的三个主要步骤总结：
1. 对于给定的输入元素 x(i) 和范围[0, T]内的每个第j个元素，计算点积 x(i)^T * x(j) 。
2. 使用softmax函数对这些点积进行归一化，得到权重 W_ij 。
3. 计算输出 o(i) ，作为整个输入序列的加权和： o(i) = ∑(W_ij * x(j)) 。

2. 参数化的自注意力机制

为了使自注意力机制更灵活，便于模型优化，我们引入了三个额外的权重矩阵 U_q 、 U_k 和 U_v 。这些矩阵用于将输入投影到查询（query）、键（key）和值（value）序列元素：
- 查询序列： q(i) = U_q * x(i) ，其中i∈[0, T]。
- 键序列： k(i) = U_k * x(i) ，其中i∈[0, T]。
- 值序列： v(i) = U_v * x(i) ，其中i∈[0, T]。

这里， q(i) 和 k(i) 都是大小为 d_k 的向量，因此投影矩阵 U_q 和 U_k 的形状为 d_k × d ，而 U_v 的形状为 d_v × d 。为了简化，我们可以设计这些向量具有相同的形状，例如 m = d_k = d_v 。

在计算未归一化的权重时，我们不再使用输入序列元素之间的点积，而是使用查询和键之间的点积： ω_ij = q(i)^T * k(j) 。然后，在使用softmax函数进行归一化之前，我们使用 1/√m 对 ω_ij 进行缩放，以确保权重向量的欧几里得长度大致在相同的范围内。

3. 多头注意力和Transformer块

多头注意力（MHA）是一种可以显著提高自注意力机制判别能力的技巧。它将多个自注意力操作组合在一起，每个自注意力机制称为一个头，这些头可以并行计算。使用r个并行头，每个头产生一个大小为m的向量 h ，这些向量被连接起来得到一个形状为 r × m 的向量 z 。最后，通过输出矩阵 W_o 对连接后的向量进行投影，得到最终的输出 o(i) = W_o * z 。

Transformer块的架构包含两个额外的组件：残差连接和层归一化。残差连接将层（或一组层）的输出添加到其输入中，有助于在训练过程中确保早期层接收到足够的梯度信号，提高训练速度和收敛性。层归一化则是一种用于归一化或缩放神经网络输入和激活的方法。

Transformer模型的工作流程如下：
1. 将输入序列传递给基于自注意力机制的MHA层。
2. 通过残差连接将输入序列添加到MHA层的输出中。
3. 对输出进行层归一化。
4. 将归一化后的信号通过一系列全连接（MLP）层，这些层也具有残差连接。
5. 对残差块的输出再次进行归一化，并将其作为输出序列返回，可用于序列分类或序列生成任务。

三、生成对抗网络（GAN）简介

在后续的研究中，生成对抗网络（GAN）在合成新数据样本方面展现出了巨大的潜力。GAN被认为是深度学习领域最重要的突破之一，它允许计算机生成新的数据，如图像。

在接下来的内容中，我们将深入探讨GAN的相关内容，包括：
- 介绍用于合成新数据的生成模型。
- 自动编码器、变分自动编码器（VAEs）及其与GAN的关系。
- 理解GAN的构建块。
- 实现一个简单的GAN模型来生成手写数字。
- 理解转置卷积和批量归一化（BatchNorm或BN）。
- 改进GAN：深度卷积GAN和使用Wasserstein距离的GAN。

通过对RNN、Transformer模型和GAN的学习，我们可以更好地应对各种序列数据建模和数据生成任务，为自然语言处理、计算机视觉等领域的应用提供更强大的工具。

以上就是关于RNN模型文本生成、Transformer模型自注意力机制以及GAN简介的详细内容，希望对大家有所帮助。

循环神经网络与Transformer模型在序列数据建模及文本生成中的应用

四、生成模型与GAN的关系

1. 生成模型概述

生成模型的主要目标是合成新的数据样本。在数据处理和机器学习领域，我们常常需要新的数据来进行测试、扩充数据集或者创造新的内容。生成模型就是为了满足这些需求而出现的。它可以学习数据的分布，然后根据这个分布生成新的数据。

2. 自动编码器与变分自动编码器

自动编码器（Autoencoders） ：自动编码器是一种无监督学习模型，它由编码器和解码器两部分组成。编码器将输入数据压缩成一个低维的表示，解码器则尝试从这个低维表示中重构出原始输入数据。其核心思想是通过最小化重构误差来学习数据的特征表示。例如，在图像数据中，自动编码器可以学习到图像的主要特征，然后在解码时根据这些特征重构出图像。
变分自动编码器（VAEs） ：变分自动编码器是自动编码器的一种扩展。与传统自动编码器不同的是，VAEs在编码过程中引入了概率分布的概念。它假设输入数据是从一个潜在的概率分布中采样得到的，编码器输出的是这个潜在分布的参数（如均值和方差）。在解码时，从这个潜在分布中采样得到一个样本，然后通过解码器生成新的数据。VAEs可以生成更加多样化的数据，因为它考虑了数据的潜在分布。

3. 与GAN的关系

自动编码器、变分自动编码器和GAN都属于生成模型的范畴。它们的目标都是生成新的数据，但实现方式有所不同。自动编码器和VAEs主要通过重构输入数据来学习数据的特征，而GAN则通过生成器和判别器之间的对抗训练来生成数据。它们之间可以相互借鉴和补充，例如在一些复杂的生成任务中，可以结合多种生成模型的优点来提高生成效果。

五、GAN的构建块与简单实现

1. GAN的基本原理

GAN由生成器（Generator）和判别器（Discriminator）两个部分组成。生成器的任务是生成新的数据样本，而判别器的任务是判断输入的数据是真实数据还是生成器生成的假数据。两者通过对抗训练的方式不断提高自己的能力。生成器试图生成越来越逼真的数据来欺骗判别器，而判别器则试图更准确地识别出假数据。

2. 简单GAN模型生成手写数字

以下是一个简单的GAN模型生成手写数字的示例代码：

import tensorflow as tf
from tensorflow.keras import layers
import numpy as np
import matplotlib.pyplot as plt

# 加载MNIST数据集
(train_images, _), (_, _) = tf.keras.datasets.mnist.load_data()
train_images = train_images.reshape(train_images.shape[0], 28, 28, 1).astype('float32')
train_images = (train_images - 127.5) / 127.5  # 归一化到 [-1, 1]

# 定义生成器
def make_generator_model():
    model = tf.keras.Sequential()
    model.add(layers.Dense(7*7*256, use_bias=False, input_shape=(100,)))
    model.add(layers.BatchNormalization())
    model.add(layers.LeakyReLU())

    model.add(layers.Reshape((7, 7, 256)))
    assert model.output_shape == (None, 7, 7, 256)

    model.add(layers.Conv2DTranspose(128, (5, 5), strides=(1, 1), padding='same', use_bias=False))
    assert model.output_shape == (None, 7, 7, 128)
    model.add(layers.BatchNormalization())
    model.add(layers.LeakyReLU())

    model.add(layers.Conv2DTranspose(64, (5, 5), strides=(2, 2), padding='same', use_bias=False))
    assert model.output_shape == (None, 14, 14, 64)
    model.add(layers.BatchNormalization())
    model.add(layers.LeakyReLU())

    model.add(layers.Conv2DTranspose(1, (5, 5), strides=(2, 2), padding='same', use_bias=False, activation='tanh'))
    assert model.output_shape == (None, 28, 28, 1)

    return model

# 定义判别器
def make_discriminator_model():
    model = tf.keras.Sequential()
    model.add(layers.Conv2D(64, (5, 5), strides=(2, 2), padding='same',
                                     input_shape=[28, 28, 1]))
    model.add(layers.LeakyReLU())
    model.add(layers.Dropout(0.3))

    model.add(layers.Conv2D(128, (5, 5), strides=(2, 2), padding='same'))
    model.add(layers.LeakyReLU())
    model.add(layers.Dropout(0.3))

    model.add(layers.Flatten())
    model.add(layers.Dense(1))

    return model

# 定义损失函数和优化器
cross_entropy = tf.keras.losses.BinaryCrossentropy(from_logits=True)

def discriminator_loss(real_output, fake_output):
    real_loss = cross_entropy(tf.ones_like(real_output), real_output)
    fake_loss = cross_entropy(tf.zeros_like(fake_output), fake_output)
    total_loss = real_loss + fake_loss
    return total_loss

def generator_loss(fake_output):
    return cross_entropy(tf.ones_like(fake_output), fake_output)

generator_optimizer = tf.keras.optimizers.Adam(1e-4)
discriminator_optimizer = tf.keras.optimizers.Adam(1e-4)

# 训练循环
EPOCHS = 50
noise_dim = 100
num_examples_to_generate = 16

seed = tf.random.normal([num_examples_to_generate, noise_dim])

@tf.function
def train_step(images):
    noise = tf.random.normal([BATCH_SIZE, noise_dim])

    with tf.GradientTape() as gen_tape, tf.GradientTape() as disc_tape:
        generated_images = generator(noise, training=True)

        real_output = discriminator(images, training=True)
        fake_output = discriminator(generated_images, training=True)

        gen_loss = generator_loss(fake_output)
        disc_loss = discriminator_loss(real_output, fake_output)

    gradients_of_generator = gen_tape.gradient(gen_loss, generator.trainable_variables)
    gradients_of_discriminator = disc_tape.gradient(disc_loss, discriminator.trainable_variables)

    generator_optimizer.apply_gradients(zip(gradients_of_generator, generator.trainable_variables))
    discriminator_optimizer.apply_gradients(zip(gradients_of_discriminator, discriminator.trainable_variables))

def train(dataset, epochs):
    for epoch in range(epochs):
        for image_batch in dataset:
            train_step(image_batch)

        # 生成图像
        generate_and_save_images(generator,
                                 epoch + 1,
                                 seed)

    # 最后一个epoch结束后生成图像
    generate_and_save_images(generator,
                             epochs,
                             seed)

def generate_and_save_images(model, epoch, test_input):
    predictions = model(test_input, training=False)

    fig = plt.figure(figsize=(4, 4))

    for i in range(predictions.shape[0]):
        plt.subplot(4, 4, i+1)
        plt.imshow(predictions[i, :, :, 0] * 127.5 + 127.5, cmap='gray')
        plt.axis('off')

    plt.savefig('image_at_epoch_{:04d}.png'.format(epoch))
    plt.show()

# 创建数据集
BUFFER_SIZE = 60000
BATCH_SIZE = 256
train_dataset = tf.data.Dataset.from_tensor_slices(train_images).shuffle(BUFFER_SIZE).batch(BATCH_SIZE)

# 创建生成器和判别器
generator = make_generator_model()
discriminator = make_discriminator_model()

# 训练模型
train(train_dataset, EPOCHS)

在这个示例中，我们使用MNIST手写数字数据集来训练GAN模型。生成器接收一个随机噪声向量作为输入，输出一个28x28的手写数字图像。判别器则接收图像作为输入，输出一个表示图像是真实还是假的分数。通过不断的对抗训练，生成器可以生成越来越逼真的手写数字图像。

六、转置卷积和批量归一化

1. 转置卷积

转置卷积（Transposed Convolution）也称为反卷积，它是卷积的逆操作。在GAN的生成器中，转置卷积常用于将低维的特征图转换为高维的图像。例如，在上述的生成器代码中，通过多次使用转置卷积层，将一个低维的噪声向量逐步转换为一个28x28的图像。转置卷积的工作原理是通过在输入特征图的元素之间插入零值，然后进行卷积操作，从而实现特征图的上采样。

2. 批量归一化

批量归一化（Batch Normalization，BN）是一种用于归一化神经网络输入和激活的方法。在GAN中，批量归一化可以加速模型的训练过程，提高模型的稳定性。它通过对每个批次的数据进行归一化处理，使得数据的均值为0，方差为1。在上述的生成器和判别器代码中，都使用了批量归一化层。批量归一化可以减少内部协变量偏移（Internal Covariate Shift）的问题，使得模型在训练过程中更加稳定，收敛速度更快。

七、改进GAN的方法

1. 深度卷积GAN（DCGAN）

深度卷积GAN（DCGAN）是一种改进的GAN模型，它在生成器和判别器中都使用了卷积神经网络（CNN）。DCGAN通过使用卷积层和转置卷积层，能够生成更高质量的图像。它还引入了一些技巧，如批量归一化、LeakyReLU激活函数等，来提高模型的性能。DCGAN的架构使得生成器和判别器能够更好地学习数据的特征，从而生成更加逼真的图像。

2. 使用Wasserstein距离的GAN

传统的GAN使用交叉熵损失函数来训练判别器和生成器，但这种损失函数存在一些问题，如梯度消失和模式崩溃。使用Wasserstein距离的GAN（WGAN）则引入了Wasserstein距离来衡量生成数据分布和真实数据分布之间的差异。Wasserstein距离能够提供更平滑的梯度，从而避免了梯度消失的问题，并且能够减少模式崩溃的发生。WGAN通过对判别器的权重进行裁剪，使得判别器的输出满足Lipschitz连续性条件，从而保证了Wasserstein距离的有效性。

通过对GAN的不断改进和优化，我们可以生成更加高质量、多样化的数据，为计算机视觉、自然语言处理等领域的应用提供更多的可能性。

综上所述，循环神经网络（RNN）、Transformer模型和生成对抗网络（GAN）在序列数据建模和数据生成领域都有着重要的应用。RNN适用于处理序列数据，Transformer模型在自然语言处理任务中表现出色，而GAN则在数据生成方面具有巨大的潜力。我们可以根据具体的任务需求选择合适的模型，并通过不断的研究和改进来提高模型的性能。