Torch中的RNN底层代码实现

本文详细介绍了Torch中RNN(简单循环神经网络)的理论基础和代码实现,包括网络结构、反向传播算法以及损失函数。通过nn.Recurrent函数展示了RNN的基本用法,并提供了相关参考资料。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Torch中的RNN【1】这个package包括了RNN,RL,通过这个package可以很容易构建RNN,RL的模型。

安装:

luarocks install torch
luarocks install nn
luarocks install torchx
luarocks install dataload

如果有CUDA:
luarocks install cutorch
luarocks install cunn

记得安装:
luarocks install rnn

但是如果要使用nn.Reccurent,需要安装:【4】

理论篇

这一次主要是讲最简单的RNN,也就是Simple RNN。实现的话是根据这两篇论文:【6】,【7】

首先介绍一下Simple RNN的整个网络结构,再说一下 ρ step 的BPTT。

整个网络可以用下图来表示:(这种网络的输入一部分是当前的输入,另外一部分来自于hidden layer的上一个输出,这种叫做Elman Network。另外一种网络是一部分来自于当前输入,另外一部分来自于整个网络的上一个输出)
这里写图片描述

  • 当前输入 wt 与上一个hidden layer的输出 st1 两个vector相加,得到真正输入到网络里面的东西。
    这里写图片描述
  • 接着是把输入送进一个logistic regression里面,得到hidden layer: st . st 一方面往输出那条路径走,另外一方面往缓存或者叫做Context里面存起来,称为下一个输入需要的一部分,替换 s
### 关于RNN反向传播的代码实现 在构建循环神经网络(RNN)时,为了优化参数,通常会采用基于梯度下降的方法来进行训练。这涉及到计算损失函数相对于各个权重矩阵的偏导数,并据此调整这些权重以最小化误差。下面给出一段Python代码片段用于展示如何在一个简化版本的RNN中执行这一过程。 ```python import torch from torch import nn, optim class SimpleRNN(nn.Module): def __init__(self, input_size, hidden_size, output_size): super(SimpleRNN, self).__init__() self.hidden_size = hidden_size self.i2h = nn.Linear(input_size + hidden_size, hidden_size) self.i2o = nn.Linear(hidden_size, output_size) def forward(self, input_tensor, hidden_tensor): combined = torch.cat((input_tensor, hidden_tensor), dim=1) hidden_output = torch.tanh(self.i2h(combined)) final_output = self.i2o(hidden_output) return final_output, hidden_output # 初始化模型、损失函数以及优化器 rnn_model = SimpleRNN(input_size=5, hidden_size=7, output_size=3) criterion = nn.MSELoss() optimizer = optim.SGD(rnn_model.parameters(), lr=0.01) # 假设我们有一个输入张量和目标标签 input_tensor = torch.randn(1, 5) # 随机生成一个形状为 (batch_size, input_size) 的输入张量 target_label = torch.tensor([[0., 1., 0.]]) # 定义一个独热编码形式的目标标签 hidden_state = torch.zeros(1, rnn_model.hidden_size) # 初始隐藏状态设置为全零 for epoch in range(100): # 进行多次迭代更新 optimizer.zero_grad() # 清除之前的梯度信息 output, next_hidden = rnn_model(input_tensor, hidden_state) loss = criterion(output, target_label) # 计算当前预测值与真实值之间的差距 loss.backward(retain_graph=True) # 执行反向传播操作,保留计算图以便后续可能再次访问同一节点 optimizer.step() # 更新模型参数 if epoch % 10 == 9: print(f'Epoch {epoch+1}, Loss: {loss.item()}') ``` 上述代码展示了如何创建一个简单的RNN架构并对其进行一次完整的前向传递和反向传播流程[^3]。这里使用PyTorch框架来自动处理大部分底层细节,使得开发者可以更专注于高层逻辑的设计上。值得注意的是,在实际应用中还需要考虑更多因素如批量大小的选择、学习率调度策略等。 #### 注意事项 - `retain_graph=True` 参数是为了允许在同一计算图内多次调用 `.backward()` 方法;但在大多数情况下,默认行为已经足够满足需求。 - 实际项目里应当根据具体应用场景调整超参数配置(比如批次尺寸、初始学习速率),并通过交叉验证等方式寻找最优解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值