Torch中的RNN底层代码实现

最新推荐文章于 2025-07-14 22:32:31 发布

原创

最新推荐文章于 2025-07-14 22:32:31 发布 · 2k 阅读

3 ·

CC 4.0 BY-SA版权

本文详细介绍了Torch中RNN（简单循环神经网络）的理论基础和代码实现，包括网络结构、反向传播算法以及损失函数。通过nn.Recurrent函数展示了RNN的基本用法，并提供了相关参考资料。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

理论篇
代码篇

Torch中的RNN【1】这个package包括了RNN，RL，通过这个package可以很容易构建RNN，RL的模型。

安装：

luarocks install torch
luarocks install nn
luarocks install torchx
luarocks install dataload

如果有CUDA：
luarocks install cutorch
luarocks install cunn

记得安装：
luarocks install rnn

但是如果要使用nn.Reccurent，需要安装：【4】

理论篇

这一次主要是讲最简单的RNN，也就是Simple RNN。实现的话是根据这两篇论文：【6】，【7】

首先介绍一下Simple RNN的整个网络结构，再说一下 $\rho$ step 的BPTT。

整个网络可以用下图来表示：（这种网络的输入一部分是当前的输入，另外一部分来自于hidden layer的上一个输出，这种叫做Elman Network。另外一种网络是一部分来自于当前输入，另外一部分来自于整个网络的上一个输出）
这里写图片描述

当前输入 $w_t$ 与上一个hidden layer的输出 $s_{t-1}$ 两个vector相加，得到真正输入到网络里面的东西。
接着是把输入送进一个logistic regression里面，得到hidden layer： $s_t$ . $s_t$ 一方面往输出那条路径走，另外一方面往缓存或者叫做Context里面存起来，称为下一个输入需要的一部分，替换 s