LSTM(Long short term memory)网络结构和语言模型代码

最新推荐文章于 2025-06-13 11:14:01 发布

原创最新推荐文章于 2025-06-13 11:14:01 发布 · 1.8k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #循环神经网络 #TensorFlow #LSTM #深度学习

本文聚焦于长短时记忆网络（LSTM），它是一种循环神经网络（RNN），适合处理和预测长间隔与延迟的时间序列事件。文中先介绍RNN循环神经网络的结构与原理，接着阐述LSTM的三个“门”结构，最后给出用LSTM实现语言模型的主要代码。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

长短时记忆网络（Long short term memory，LSTM）是一种循环神经网络（Recurrent neural network，RNN）。与卷积神经网络不同的是，循环神经网络会对每一个时刻的输入结合当前模型的状态给出一个输出。由于独特的设计结构，LSTM适合于处理和预测时间序列中间隔和延迟非常长的重要事件。LSTM具有非常广泛的应用，包括语音识别、文本分类、语言模型、自动对话、机器翻译、图像标注等领域。本文介绍LSTM的网络结构和主要代码。

1 RNN循环神经网络

RNN循环神经网络中的循环可以展开成一个个串联的结构，如下图所示。展开后类似于有一系列输入x和一系列输出h的串联的普通神经网络，上一层的神经网络会传递信息给下一层，这种串联的结构非常适合时间序列数据的处理和分析。RNN展开后的每一个层级的神经网络，其参数都是相同的。因此并不需要训练成百上千层神经网络的参数，只需要训练一层RNN的参数，这里共享参数的思想和卷积网络中权值共享的方式类似。

RNN是一个序列到序列的模型，可以用下图的展开结构来表示其网络模型。

图中，xt表示t时刻的输入，ot表示t时刻的输出，st表示t时刻的记忆。当前时刻的输出是由记忆和当前时刻的输入的。当前时刻的记忆可表示为：，f是激活函数。RNN带着当前时刻的记忆去预测当前时刻的输出，对st乘一个权重矩阵V，运用softmax来预测，得到当前时刻的输出：。每个层级的网络都共享参数U、V、W，可以降低计算量。

2 LSTM长短时记忆网络结构

LSTM是一种拥有三个“门”结构的特殊网络结构，依靠“门”结构让信息有选择性地影响循环神经网络中每个时刻的状态。下面通过对一个隐藏层的分析来解释“门”结构。

1）遗忘门。数据信息是上一层信息与现在的输入数据信息的加权之和，激活函数是Sigmoid，输出0到1之间的值，直接控制了信息传递的比例，如果为0表示不允许信息传递，为1表示让信息全部通过。

2）输入门。也有一个激活函数Sigmoid，决定了哪些信息会被传递。

3）tanh激活层。用于创建隐藏层的候选值。

4）最后记忆层。获取隐藏层，是基于上一个隐藏层与现隐藏层的候选值，这两个值通过与遗忘门和输入门相乘，决定通过多少信息。

5）输出门。也有一个激活函数Sigmoid，决定输出哪些信息。

6）最后隐藏层。先经过一个激活函数，让值控制在[-1，1]之间，防止梯度爆炸，然后再与输出层相乘决定输出哪部分信息。

3 LSTM语言模型代码

用LSTM来实现一个语言模型，参照论文《Recurrent Neural Network Regularization》的网络结构编写代码。主要代码如下：

1）首先定义语言模型的类class，Model。初始化函数__init__()，其中包含六个参数，学习率learning_rate，输入数据的batch_size和num_steps，字典里有多少个字num_words，用作embeding变量的第一个维度的确定和onehot编码，编码后的字向量的维度dim_embedding，有多少个RNN层rnn_layers，在这个模型里，一个RNN层就是一个RNN Cell，各个Cell之间通过TensorFlow提供的多层RNNAPI（MultiRNNCell等）组织到一起。

class Model():
    def __init__(self, learning_rate , batch_size, num_steps, num_words, dim_embedding, rnn_layers):
        self.batch_size = batch_size
        self.num_steps = num_steps
        self.num_words = num_words
        self.dim_embedding = dim_embedding
        self.rnn_layers = rnn_layers
        self.learning_rate = learning_rate

2）定义一个单个cell函数def get_a_cell (lstm_size, keep_prob)， tf.nn.rnn_cell.BasicLSTMCell用来定义单个基本的LSTM单元，在lstm_cell之后用tf.nn.rnn_cell.DropoutWrapper接入一个Dropout层。

     def get_a_cell(lstm_size, keep_prob):
           lstm = tf.nn.rnn_cell.BasicLSTMCell(lstm_size)
           drop = tf.nn.rnn_cell.DropoutWrapper(lstm, output_keep_prob=keep_prob)
           return drop

3）通过tf.nn.rnn_cell.MultiRNNCell实现深层循环神经网络中每一个时刻的前向传播过程，其中rnn_layers表示层数，也就是需要经过多少个LSTM结构。构造完多层LSTM以后，通过zero_state对状态进行初始化，再通过tf.nn.dynamic_rnn创建递归神经网络。最后对outputs_tensor的内容用tf.concat串接到一起，并使用tf.reshape将其转为一维向量。

      with tf.variable_scope('rnn'):
           cell = tf.nn.rnn_cell.MultiRNNCell(
                        [get_a_cell(self.dim_embedding, self.keep_prob) for _ in range(self.rnn_layers)])
           self.state_tensor = cell.zero_state(self.batch_size, tf.float32)
           outputs_tensor,final_state = tf.nn.dynamic_rnn(cell, data,initial_state=self.state_tensor)
           self.outputs_state_tensor = final_state
       seq_output = tf.concat(outputs_tensor, 1)
       seq_output_final = tf.reshape(seq_output, [-1, self.dim_embedding])

4）定义权重W和偏置b，使用tf.matmul将输出seg_output乘上权重加上偏置得到logits，即网络最后的输出。

    with tf.variable_scope('softmax'):
        W = tf.get_variable('W',[self.dim_embedding,self.num_words])
        b = tf.get_variable('b',[self.num_words])
    logits = tf.matmul(seq_output_final, W) + b

5）用one_hot编码得到输入数据的标签对应的one_hot张量。

    y_onehot = tf.one_hot(self.Y, self.num_words)
    y_reshaped = tf.reshape(y_onehot, logits.get_shape())

6）用交叉熵计算loss，最后进行优化。

    loss = tf.nn.softmax_cross_entropy_with_logits(labels = y_reshaped, logits = logits)