43、使用循环神经网络进行序列建模

js777

于 2025-11-07 09:17:08 发布

阅读量12

点赞数

CC 4.0 BY-SA版权

分类专栏：掌握机器学习核心技能文章标签： RNN LSTM GRU

本文链接：https://blog.youkuaiyun.com/js777/article/details/154923373

掌握机器学习核心技能专栏收录该内容

53 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

使用循环神经网络进行序列建模

1. 长短期记忆单元（LSTM）

LSTM最初是为克服梯度消失问题而提出的。其基本构建块是记忆单元，本质上代表或替代了标准RNN的隐藏层。

在每个记忆单元中，有一个循环边，其权重 $w = 1$，可克服梯度消失和梯度爆炸问题。与该循环边关联的值统称为单元状态。现代LSTM单元的展开结构中，前一时间步的单元状态 $C(t - 1)$ 经修改得到当前时间步的单元状态 $C(t)$，且不直接与任何权重因子相乘。记忆单元中的信息流由几个计算单元（通常称为门）控制。

LSTM单元中有三种不同类型的门：
- 遗忘门（$f_t$） ：允许记忆单元重置单元状态，避免其无限增长。它决定哪些信息可以通过，哪些信息需要抑制，计算公式为 $f_t = \sigma(W_{xf}x(t) + W_{hf}h(t - 1) + b_f)$。遗忘门并非原始LSTM单元的一部分，是后来为改进原始模型而添加的。
- 输入门（$i_t$）和候选值（$\tilde{C}_t$） ：负责更新单元状态。计算公式分别为 $i_t = \sigma(W_{xi}x(t) + W_{hi}h(t - 1) + b_i)$ 和 $\tilde{C} t = \tanh(W {xc}x(t) + W_{hc}h(t - 1) + b_c)$。时间步 $t$ 的单元状态计算公式为 $C(t) = (C(t - 1) \odot f_t) \oplus (i_t \odot \tilde{C} t)$。
- 输出门（$o_t$） ：决定如何更新隐藏单元的值。计算公式为 $o_t = \sigma(W {xo}x(t) + W_{ho}h(t - 1) + b_o)$。当前时间步的隐藏单元计算公式为 $h(t) = o_t \odot \tanh(C(t))$。

虽然LSTM单元的结构和计算看似复杂，但TensorFlow已在优化的包装函数中实现了一切，方便我们轻松高效地定义LSTM单元。

2. 在TensorFlow中实现RNN进行序列建模

在了解RNN的基本理论后，接下来将在TensorFlow中实现RNN，并将其应用于两个常见的问题任务：
1. 情感分析
2. 语言建模

3. 项目一：预测IMDb电影评论的情感

情感分析旨在分析句子或文本文档所表达的观点。这里将实现一个多层RNN进行情感分析，采用多对一架构。

3.1 准备电影评论数据

使用之前创建的干净数据集 movie_data.csv 。具体操作步骤如下：
1. 导入必要的模块并读取数据 ：

import tensorflow as tf
import tensorflow_datasets as tfds
import numpy as np
import pandas as pd
df = pd.read_csv('movie_data.csv', encoding='utf-8')

数据框 df 包含两列： review （电影评论的文本，即输入特征）和 sentiment （要预测的目标标签，0 表示负面情感，1 表示正面情感）。
2. 创建TensorFlow数据集对象并划分数据集 ：

target = df.pop('sentiment')
ds_raw = tf.data.Dataset.from_tensor_slices((df.values, target.values))
tf.random.set_seed(1)
ds_raw = ds_raw.shuffle(50000, reshuffle_each_iteration=False)
ds_raw_test = ds_raw.take(25000)
ds_raw_train_valid = ds_raw.skip(25000)
ds_raw_train = ds_raw_train_valid.take(20000)
ds_raw_valid = ds_raw_train_valid.skip(20000)

找出训练数据集中的唯一单词（标记） ：

from collections import Counter
tokenizer = tfds.features.text.Tokenizer()
token_counts = Counter()
for example in ds_raw_train:
    tokens = tokenizer.tokenize(example[0].numpy()[0])
    token_counts.update(tokens)
print('Vocab-size:', len(token_counts))

将每个唯一单词映射到唯一整数并对评论进行编码 ：

encoder = tfds.features.text.TokenTextEncoder(token_counts)
example_str = 'This is an example!'
print(encoder.encode(example_str))

需要注意的是，验证或测试数据中可能存在训练数据中未出现的标记，这些标记将被分配整数 q + 1 （这里 q 是传递给 TokenTextEncoder 的 token_counts 的大小），整数 0 用作调整序列长度的占位符。
5. 定义转换函数并进行编码 ：

def encode(text_tensor, label):
    text = text_tensor.numpy()[0]
    encoded_text = encoder.encode(text)
    return encoded_text, label

def encode_map_fn(text, label):
    return tf.py_function(encode, inp=[text, label], Tout=(tf.int64, tf.int64))

ds_train = ds_raw_train.map(encode_map_fn)
ds_valid = ds_raw_valid.map(encode_map_fn)
ds_test = ds_raw_test.map(encode_map_fn)

将数据集划分为小批量 ：

ds_subset = ds_train.take(8)
for example in ds_subset:
    print('Individual size:', example[0].shape)
ds_batched = ds_subset.padded_batch(4, padded_shapes=([-1], []))
for batch in ds_batched:
    print('Batch dimension:', batch[0].shape)

train_data = ds_train.padded_batch(32, padded_shapes=([-1],[]))
valid_data = ds_valid.padded_batch(32, padded_shapes=([-1],[]))
test_data = ds_test.padded_batch(32, padded_shapes=([-1],[]))

4. 用于句子编码的嵌入层

之前的数据准备生成了相同长度的序列，其元素是唯一单词的索引。将这些单词索引转换为输入特征有多种方法。
- 独热编码 ：将索引转换为全零和一的向量，每个单词映射到一个向量，其大小为数据集中唯一单词的数量。但这种方法可能导致模型受维度灾难影响，且特征非常稀疏。
- 嵌入：将每个单词映射到一个固定大小的实值向量。嵌入是一种特征学习技术，可自动学习代表数据集中单词的显著特征。与独热编码相比，嵌入具有以下优点：
- 减少特征空间的维度，降低维度灾难的影响。
- 由于神经网络中的嵌入层可以被优化（或学习），因此可以提取显著特征。

使用 tf.keras.layers.Embedding 创建嵌入层的示例代码如下：

from tensorflow.keras.layers import Embedding
model = tf.keras.Sequential()
model.add(Embedding(input_dim=100, output_dim=6, input_length=20, name='embed-layer'))
model.summary()

5. 构建RNN模型

使用Keras的 Sequential 类，可以将嵌入层、RNN的循环层和全连接的非循环层组合起来。循环层可以使用以下实现之一：
- SimpleRNN ：常规RNN层，即全连接循环层。
- LSTM ：长短期记忆RNN，适用于捕捉长期依赖关系。
- GRU ：具有门控循环单元的循环层，是LSTM的替代方案。

以下是一个创建多层RNN模型的示例：

from tensorflow.keras import Sequential
from tensorflow.keras.layers import Embedding
from tensorflow.keras.layers import SimpleRNN
from tensorflow.keras.layers import Dense
model = Sequential()
model.add(Embedding(input_dim=1000, output_dim=32))
model.add(SimpleRNN(32, return_sequences=True))
model.add(SimpleRNN(32))
model.add(Dense(1))
model.summary()

整个实现流程可以用以下mermaid流程图表示：

graph LR
    A[准备电影评论数据] --> B[创建TensorFlow数据集并划分]
    B --> C[找出唯一单词]
    C --> D[单词映射到整数并编码]
    D --> E[划分小批量]
    E --> F[嵌入层处理]
    F --> G[构建RNN模型]

总的来说，通过以上步骤，我们可以在TensorFlow中实现RNN进行序列建模，包括情感分析和语言建模等任务。在实际应用中，可以根据具体需求选择合适的RNN架构和参数，以获得更好的性能。

使用循环神经网络进行序列建模

6. 情感分析中的RNN应用细节

在情感分析任务中，我们已经完成了数据的准备和模型的初步构建。接下来，我们将深入探讨如何训练和评估这个RNN模型。

6.1 模型编译

在训练模型之前，我们需要对模型进行编译，指定损失函数、优化器和评估指标。对于情感分析这种二分类问题，常用的损失函数是二元交叉熵损失（Binary Cross Entropy），优化器可以选择Adam优化器，评估指标可以选择准确率（Accuracy）。示例代码如下：

model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

6.2 模型训练

使用准备好的训练数据和验证数据对模型进行训练。通过指定训练的轮数（epochs）和批次大小（batch size），让模型在训练数据上进行多次迭代学习，同时在验证数据上进行验证，以监测模型的性能。示例代码如下：

history = model.fit(train_data, epochs=10, validation_data=valid_data)

6.3 模型评估

训练完成后，使用测试数据对模型进行评估，得到模型在测试数据上的损失值和准确率。示例代码如下：

test_loss, test_acc = model.evaluate(test_data)
print(f'Test accuracy: {test_acc}')

以下是整个情感分析流程的表格总结：
|步骤|操作|代码示例|
|----|----|----|
|数据准备|导入模块、读取数据、划分数据集、编码等|见前文相关代码|
|模型构建|添加嵌入层、循环层和全连接层| model = Sequential(); model.add(Embedding(...)); model.add(SimpleRNN(...)); model.add(Dense(...)) |
|模型编译|指定损失函数、优化器和评估指标| model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy']) |
|模型训练|使用训练数据和验证数据进行训练| history = model.fit(train_data, epochs=10, validation_data=valid_data) |
|模型评估|使用测试数据评估模型| test_loss, test_acc = model.evaluate(test_data) |

7. 语言建模中的RNN应用

语言建模的目标是预测给定上下文下下一个单词的概率分布。在这个任务中，我们同样可以使用RNN来捕捉文本序列中的上下文信息。

7.1 数据准备

语言建模的数据准备与情感分析类似，但在编码和划分批次时需要考虑文本序列的连续性。通常，我们会将文本序列划分为输入序列和目标序列，目标序列是输入序列的下一个单词。示例代码如下：

# 假设已经有一个文本序列text
sequence_length = 10
input_sequences = []
target_sequences = []
for i in range(len(text) - sequence_length):
    input_sequences.append(text[i:i+sequence_length])
    target_sequences.append(text[i+sequence_length])

# 对输入序列和目标序列进行编码
encoded_input_sequences = [encoder.encode(seq) for seq in input_sequences]
encoded_target_sequences = [encoder.encode(word) for word in target_sequences]

# 创建TensorFlow数据集并划分批次
ds = tf.data.Dataset.from_tensor_slices((encoded_input_sequences, encoded_target_sequences))
train_data = ds.take(int(len(ds) * 0.8)).padded_batch(32, padded_shapes=([-1], []))
valid_data = ds.skip(int(len(ds) * 0.8)).padded_batch(32, padded_shapes=([-1], []))

7.2 模型构建

语言建模的模型结构与情感分析类似，但输出层通常使用Softmax激活函数，以输出每个单词的概率分布。示例代码如下：

from tensorflow.keras.layers import Embedding, SimpleRNN, Dense
model = Sequential()
model.add(Embedding(input_dim=vocab_size, output_dim=32, input_length=sequence_length))
model.add(SimpleRNN(32, return_sequences=True))
model.add(SimpleRNN(32))
model.add(Dense(vocab_size, activation='softmax'))
model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

7.3 模型训练和评估

与情感分析类似，使用训练数据对模型进行训练，使用验证数据进行验证，最后使用测试数据进行评估。示例代码如下：

history = model.fit(train_data, epochs=10, validation_data=valid_data)
test_loss, test_acc = model.evaluate(valid_data)
print(f'Test accuracy: {test_acc}')

8. 不同RNN架构的比较

在构建RNN模型时，我们可以选择不同的循环层架构，如SimpleRNN、LSTM和GRU。它们各自有不同的特点和适用场景。
|架构|特点|适用场景|
|----|----|----|
|SimpleRNN|结构简单，计算速度快，但在处理长序列时容易出现梯度消失问题|短序列建模任务，对计算资源要求较高的场景|
|LSTM|引入了门控机制，能够有效捕捉长序列中的长期依赖关系，但结构复杂，计算量较大|长序列建模任务，需要捕捉长期依赖的场景|
|GRU|是LSTM的简化版本，结构相对简单，计算效率较高，在一些任务中性能与LSTM相当|长序列建模任务，对计算效率有一定要求的场景|

以下是不同RNN架构在语言建模任务中的性能比较mermaid流程图：

graph LR
    A[数据准备] --> B1[SimpleRNN模型构建]
    A --> B2[LSTM模型构建]
    A --> B3[GRU模型构建]
    B1 --> C1[SimpleRNN模型训练和评估]
    B2 --> C2[LSTM模型训练和评估]
    B3 --> C3[GRU模型训练和评估]
    C1 --> D[比较性能]
    C2 --> D
    C3 --> D

9. 总结

通过以上内容，我们详细介绍了如何使用循环神经网络进行序列建模，包括长短期记忆单元（LSTM）的原理、在TensorFlow中实现RNN的步骤、情感分析和语言建模的具体应用，以及不同RNN架构的比较。在实际应用中，我们可以根据具体的任务需求和数据特点选择合适的RNN架构和参数，通过数据准备、模型构建、训练和评估等步骤，构建出性能良好的序列模型。同时，不断探索和尝试不同的方法和技巧，以进一步提高模型的性能和效果。