动手学深度学习PyTorch版-循环神经网络基础-优快云博客

本文链接：https://blog.youkuaiyun.com/hongyesuifeng/article/details/104311832

本文介绍了从零开始构建循环神经网络（RNN）的基础，包括one-hot向量和模型参数初始化。通过PyTorch实现RNN，并展示了在训练过程中如何创作歌词，随着训练的进行，生成的歌词质量逐步提高。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

循环神经网络基础

从零开始实现循环神经网络

import torch
import torch.nn as nn
import time
import math
import sys
sys.path.append("/home/kesci/input")
import d2l_jay9460 as d2l
(corpus_indices, char_to_idx, idx_to_char, vocab_size) = d2l.load_data_jay_lyrics()
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

one-hot向量

def one_hot(x, n_class, dtype=torch.float32):
    result = torch.zeros(x.shape[0], n_class, dtype=dtype, device=x.device)  # shape: (n, n_class)
    result.scatter_(1, x.long().view(-1, 1), 1)  # result[i, x[i, 0]] = 1
    return result
    
x = torch.tensor([0, 2])
x_one_hot = one_hot(x, vocab_size)
print(x_one_hot)
print(x_one_hot.shape)
print(x_one_hot.sum(axis=1))

def to_onehot(X, n_class):
    return [one_hot(X[:, i], n_class) for i in range(X.shape[1])]

X = torch.arange(10).view(2, 5)
inputs = to_onehot(X, vocab_size)
print(len(inputs), inputs[0].shape)

tensor([[1., 0., 0., …, 0., 0., 0.],
[0., 0., 1., …, 0., 0., 0.]])
torch.Size([2, 1027])
tensor([1., 1.])

5 torch.Size([2, 1027])

初始化模型参数

num_inputs, num_hiddens, num_outputs = vocab_size, 256, vocab_size
# num_inputs: d
# num_hiddens: h, 隐藏单元的个数是超参数
# num_outputs: q

def get_params():
    def _one(shape):
        param = torch.zeros(shape, device=device, dtype=torch.float32)
        nn.init.normal_(param, 0, 0.01)
        return torch.nn.Parameter(param)

    # 隐藏层参数
    W_xh = _one((num_inputs, num_hiddens))
    W_hh = _one((num_hiddens, num_hiddens))
    b_h = torch.nn.Parameter(torch.zeros(num_hiddens, device=device))
    # 输出层参数
    W_hq = _one((num_hiddens, num_outputs))
    b_q = torch.nn.Parameter(torch.zeros(num_outputs, device=device))
    return (W_xh, W_hh, b_h, W_hq, b_q)

定义模型

def rnn(inputs, state, params):
    # inputs和outputs皆为num_steps个形状为(batch_size, vocab_size)的矩阵
    W_xh, W_hh, b_h, W_hq, b_q = params
    H, = state
    outputs = []
    for X in inputs:
        H = torch.tanh(torch.matmul(X, W_xh) + torch.matmul(H, W_hh) + b_h)
        Y = torch.matmul(H, W_hq) + b_q
        outputs.append(Y)
    return outputs, (H,)

测试数据

def init_rnn_state(batch_size, num_hiddens, device):
    return (torch.zeros((batch_size, num_hiddens), device=device), )
print(X.shape)
print(num_hiddens)
print(vocab_size)
state = init_rnn_state(X.shape[0], num_hiddens, device)
inputs = to_onehot(X.to(device), vocab_size)
params = get_params()
outputs, state_new = rnn(inputs, state, params)
print(len(inputs), inputs[0].shape)
print(len(outputs), outputs[0].shape)
print(len(state), state[0].shape)
print(len(state_new), state_new[0].shape)

torch.Size([2, 5])
256
1027
5 torch.Size([2, 1027])
5 torch.Size([2, 1027])
1 torch.Size([2, 256])
1 torch.Size([2, 256])

裁剪梯度

def grad_clipping(params, theta, device):
    norm = torch.tensor([0.0], device=device)
    for param in params:
        norm += (param.grad.data ** 2).sum()
    norm = norm.sqrt().item()
    if norm > theta:
        for param in params:
            param.grad.data *= (theta / norm)

定义预测函数

def predict_rnn(prefix, num_chars, rnn, params, init_rnn_state,
                num_hiddens, vocab_size, device, idx_to_char, char_to_idx):
    state = init_rnn_state(1, num_hiddens, device)
    output = [char_to_idx[prefix[0]]]   # output记录prefix加上预测的num_chars个字符
    for t in range(num_chars + len(prefix) - 1):
        # 将上一时间步的输出作为当前时间步的输入
        X = to_onehot(torch.tensor([[output[-1]]], device=device), vocab_size)
        # 计算输出和更新隐藏状态
        (Y, state) = rnn(X, state, params)
        # 下一个时间步的输入是prefix里的字符或者当前的最佳预测字符
        if t < len(prefix) - 1:
            output.append(char_to_idx[prefix[t + 1]])
        else:
            output.append(Y[0].argmax(dim=1).item())
    return ''.join([idx_to_char[i] for i in output])
    
predict_rnn('分开', 10, rnn, params, init_rnn_state, num_hiddens, vocab_size,
            device, idx_to_char, char_to_idx)

‘分开到砖作板停者距栈田许’

定义模型训练函数

def train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens,
                          vocab_size, device, corpus_indices, idx_to_char,
                          char_to_idx, is_random_iter, num_epochs, num_steps,
                          lr, clipping_theta, batch_size, pred_period,
                          pred_len, prefixes):
    if is_random_iter:
        data_iter_fn = d2l.data_iter_random
    else:
        data_iter_fn = d2l.data_iter_consecutive
    params = get_params()
    loss = nn.CrossEntropyLoss()

    for epoch in range(num_epochs):
        if not is_random_iter:  # 如使用相邻采样，在epoch开始时初始化隐藏状态
            state = init_rnn_state(batch_size, num_hiddens, device)
        l_sum, n, start = 0.0, 0, time.time()
        data_iter = data_iter_fn(corpus_indices, batch_size, num_steps, device)
        for X, Y in data_iter:
            if is_random_iter:  # 如使用随机采样，在每个小批量更新前初始化隐藏状态
                state = init_rnn_state(batch_size, num_hiddens, device)
            else:  # 否则需要使用detach函数从计算图分离隐藏状态
                for s in state:
                    s.detach_()
            # inputs是num_steps个形状为(batch_size, vocab_size)的矩阵
            inputs = to_onehot(X, vocab_size)
            # outputs有num_steps个形状为(batch_size, vocab_size)的矩阵
            (outputs, state) = rnn(inputs, state, params)
            # 拼接之后形状为(num_steps * batch_size, vocab_size)
            outputs = torch.cat(outputs, dim=0)
            # Y的形状是(batch_size, num_steps)，转置后再变成形状为
            # (num_steps * batch_size,)的向量，这样跟输出的行一一对应
            y = torch.flatten(Y.T)
            # 使用交叉熵损失计算平均分类误差
            l = loss(outputs, y.long())
            
            # 梯度清0
            if params[0].grad is not None:
                for param in params:
                    param.grad.data.zero_()
            l.backward()
            grad_clipping(params, clipping_theta, device)  # 裁剪梯度
            d2l.sgd(params, lr, 1)  # 因为误差已经取过均值，梯度不用再做平均
            l_sum += l.item() * y.shape[0]
            n += y.shape[0]

        if (epoch + 1) % pred_period == 0:
            print('epoch %d, perplexity %f, time %.2f sec' % (
                epoch + 1, math.exp(l_sum / n), time.time() - start))
            for prefix in prefixes:
                print(' -', predict_rnn(prefix, pred_len, rnn, params, init_rnn_state,
                    num_hiddens, vocab_size, device, idx_to_char, char_to_idx))

模型训练并创作歌词

num_epochs, num_steps, batch_size, lr, clipping_theta = 250, 35, 32, 1e2, 1e-2
pred_period, pred_len, prefixes = 50, 50, ['分开', '不分开']

随机采样创作歌词

train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens,
                      vocab_size, device, corpus_indices, idx_to_char,
                      char_to_idx, True, num_epochs, num_steps, lr,
                      clipping_theta, batch_size, pred_period, pred_len,
                      prefixes)

epoch 50, perplexity 64.860337, time 0.77 sec

分开我想想的可爱女人坏坏的让我疯狂的可爱女人坏坏的让我疯狂的可爱女人坏坏的让我疯狂的可爱女人坏
不分开我想想的可爱女人坏坏的让我疯狂的可爱女人坏坏的让我疯狂的可爱女人坏坏的让我疯狂的可爱女人坏
epoch 100, perplexity 9.351551, time 0.71 sec
分开一颗两步三步四步连成线不著口后知后觉说使了双截棍哼哼哈兮我该好好生奏我知无好你知不外
不分开永我爱能再想我不我不我不能再想你不知不觉你已经离开我不知不觉我已经这节奏后知后觉
epoch 150, perplexity 2.814085, time 0.76 sec
分开一直伦双截棍哼哼哈兮快使用双截棍哼哼哈兮快使用双截棍哼哼哈兮快使用双截棍哼哼哈兮快
不分开吗我叫你爸你打的让心是彩的你在没空在小上如人有壶球慢果我遇见画面快使用双截棍哼
epoch 200, perplexity 1.569008, time 0.73 sec
分开一直我爱过的话笑语言管檐我泪片我三里怎么球来那说歌不子走的太画然烁什杨忆一人心美
不分开扫把的胖女巫用拉丁文念咒语啦啦呜她养的黑猫笑起来像哭啦啦啦呜谁在西在前周人一直落三里就
epoch 250, perplexity 1.284621, time 0.71 sec
分开干什么人留谁话它停留的为什么我女朋友场外加油你却还让我出糗从小就耳濡目染什么刀枪跟棍棒
不分开期然后将过去慢慢温习让我爱上你那场悲剧是你完美演出的一场戏宁愿心碎哭泣再狠狠忘记你爱

相邻采样创作歌词

train_and_predict_rnn(rnn, get_params, init_rnn_state, num_hiddens,
                      vocab_size, device, corpus_indices, idx_to_char,
                      char_to_idx, False, num_epochs, num_steps, lr,
                      clipping_theta, batch_size, pred_period, pred_len,
                      prefixes)

epoch 50, perplexity 60.294393, time 0.74 sec

分开我想要你想我不要再想我不要再想我不要再想我不要再想我不要再想我不要再想我不要再想我
不分开我想要你你有了别不我的可爱女人坏坏的让我疯狂的可爱女人坏坏的让我疯狂的可爱女人坏坏的让我
epoch 100, perplexity 7.141162, time 0.72 sec
分开我已要再爱我不要再想我不我不我不要再想我不我不我不要爱情我的见快就像龙卷风离能开
不分开柳你天黄一个棍后知哈兮快使用双截棍哼哼哈兮快使用双截棍哼哼哈兮快使用双截棍哼哼哈兮
epoch 150, perplexity 2.090277, time 0.73 sec
分开我已要这是你在著不想我都做得到但那个人已经不是我没有你在我却多难熬没有你在我有多难熬多
不分开觉你已经离我想再好这样心中我一定带我我的完空不你是风一一彩纵在人心中我一定带我妈走
epoch 200, perplexity 1.305391, time 0.77 sec
分开我已要这样牵看你的手它一定实现它一定像现载著你彷彿载著阳光不管到你留都是晴天蝴蝶自在飞力
不分开觉你已经离开我不知不觉我跟了这节奏后知后觉又过了一个秋后知后觉我该好好生活我该好好生
epoch 250, perplexity 1.230800, time 0.79 sec
分开我不要是你看的太快了悲慢担心今手身会大早其么我也睡不着昨晚梦里你来找我才原来我只想
不分开觉你在经离开我不知不觉你知了有节奏后知后觉后知了一个秋后知后觉我该好好生活我该好好生

使用pytorch实现循环神经网络

查看输出

rnn_layer = nn.RNN(input_size=vocab_size, hidden_size=num_hiddens)
num_steps, batch_size = 35, 2
X = torch.rand(num_steps, batch_size, vocab_size)
state = None
Y, state_new = rnn_layer(X, state)
print(Y.shape, state_new.shape)

torch.Size([35, 2, 256]) torch.Size([1, 2, 256])

定义模型

class RNNModel(nn.Module):
    def __init__(self, rnn_layer, vocab_size):
        super(RNNModel, self).__init__()
        self.rnn = rnn_layer
        self.hidden_size = rnn_layer.hidden_size * (2 if rnn_layer.bidirectional else 1) 
        self.vocab_size = vocab_size
        self.dense = nn.Linear(self.hidden_size, vocab_size)

    def forward(self, inputs, state):
        # inputs.shape: (batch_size, num_steps)
        X = to_onehot(inputs, vocab_size)
        X = torch.stack(X)  # X.shape: (num_steps, batch_size, vocab_size)
        hiddens, state = self.rnn(X, state)
        hiddens = hiddens.view(-1, hiddens.shape[-1])  # hiddens.shape: (num_steps * batch_size, hidden_size)
        output = self.dense(hiddens)
        return output, state

构造预测函数

def predict_rnn_pytorch(prefix, num_chars, model, vocab_size, device, idx_to_char,
                      char_to_idx):
    state = None
    output = [char_to_idx[prefix[0]]]  # output记录prefix加上预测的num_chars个字符
    for t in range(num_chars + len(prefix) - 1):
        X = torch.tensor([output[-1]], device=device).view(1, 1)
        (Y, state) = model(X, state)  # 前向计算不需要传入模型参数
        if t < len(prefix) - 1:
            output.append(char_to_idx[prefix[t + 1]])
        else:
            output.append(Y.argmax(dim=1).item())
    return ''.join([idx_to_char[i] for i in output])

使用权重为随机值进行预测

model = RNNModel(rnn_layer, vocab_size).to(device)
predict_rnn_pytorch('分开', 10, model, vocab_size, device, idx_to_char, char_to_idx)

相邻采样训练模型

def train_and_predict_rnn_pytorch(model, num_hiddens, vocab_size, device,
                                corpus_indices, idx_to_char, char_to_idx,
                                num_epochs, num_steps, lr, clipping_theta,
                                batch_size, pred_period, pred_len, prefixes):
    loss = nn.CrossEntropyLoss()
    optimizer = torch.optim.Adam(model.parameters(), lr=lr)
    model.to(device)
    for epoch in range(num_epochs):
        l_sum, n, start = 0.0, 0, time.time()
        data_iter = d2l.data_iter_consecutive(corpus_indices, batch_size, num_steps, device) # 相邻采样
        state = None
        for X, Y in data_iter:
            if state is not None:
                # 使用detach函数从计算图分离隐藏状态
                if isinstance (state, tuple): # LSTM, state:(h, c)  
                    state[0].detach_()
                    state[1].detach_()
                else: 
                    state.detach_()
            (output, state) = model(X, state) # output.shape: (num_steps * batch_size, vocab_size)
            y = torch.flatten(Y.T)
            l = loss(output, y.long())
            
            optimizer.zero_grad()
            l.backward()
            grad_clipping(model.parameters(), clipping_theta, device)
            optimizer.step()
            l_sum += l.item() * y.shape[0]
            n += y.shape[0]
        

        if (epoch + 1) % pred_period == 0:
            print('epoch %d, perplexity %f, time %.2f sec' % (
                epoch + 1, math.exp(l_sum / n), time.time() - start))
            for prefix in prefixes:
                print(' -', predict_rnn_pytorch(
                    prefix, pred_len, model, vocab_size, device, idx_to_char,
                    char_to_idx))

训练模型

num_epochs, batch_size, lr, clipping_theta = 250, 32, 1e-3, 1e-2
pred_period, pred_len, prefixes = 50, 50, ['分开', '不分开']
train_and_predict_rnn_pytorch(model, num_hiddens, vocab_size, device,
                            corpus_indices, idx_to_char, char_to_idx,
                            num_epochs, num_steps, lr, clipping_theta,
                            batch_size, pred_period, pred_len, prefixes)

epoch 50, perplexity 9.405654, time 0.52 sec

分开始一起三步四步望著天看星星一颗两颗三颗四颗连成线背著背默默许下心愿一枝杨柳你的那我在
不分开爱情你的手一人的老斑鸠腿短毛不多快使用双截棍哼哼哈兮快使用双截棍哼哼哈兮快使用双截棍
epoch 100, perplexity 1.255020, time 0.54 sec
分开我人了的屋我一定令它心仪的母斑鸠爱像一阵风吹完美主这样还人的太快就是学怕眼口让我碰恨这
不分开不想我多的脑袋有问题随便说说其实我早已经猜透看透不想多说只是我怕眼泪撑不住不懂你的黑色幽默
epoch 150, perplexity 1.064527, time 0.53 sec
分开我轻外的溪边默默在一心抽离有话不知不觉一场悲剧我对不起藤蔓植物的爬满了伯爵的坟墓古堡里
不分开不想不多的脑有教堂有你笑我有多烦恼没有你烦有有样别怪走快后悔没说你我不多难熬我想就
epoch 200, perplexity 1.033074, time 0.53 sec
分开我轻外的溪边默默在一心向昏的愿古无着我只能一个黑远这想太久这样我不要再是你打我妈妈
不分开你只会我一起睡著样娘子却只想你和汉堡我想要你的微笑每天都能看到我知道这里很美但家乡的你更美
epoch 250, perplexity 1.047890, time 0.68 sec
分开我轻多的漫却已在你人演想要再直你我想要这样牵着你的手不放开爱可不可以简简单单没有伤害你
不分开不想不多的假已无能为力再提起决定中断熟悉然后在这里不限日期然后将过去慢慢温习让我爱上