循环神经网络教程 Part 4笔记

最新推荐文章于 2021-04-28 20:30:59 发布

翻译最新推荐文章于 2021-04-28 20:30:59 发布 · 570 阅读

文章标签：

#RNN #Theano

学习笔记专栏收录该内容

3 篇文章

订阅专栏

本文深入探讨了LSTM（长短时记忆网络）与GRU（门控循环单元）这两种解决梯度消失问题的循环神经网络结构。文章详细解释了LSTM如何通过门控机制来选择性地记住或遗忘信息，并介绍了GRU作为LSTM的一种简化变体是如何工作的。

Note: RECURRENT NEURAL NETWORK TUTORIAL, PART 4 – IMPLEMENTING A GRU/LSTM RNN WITH PYTHON AND THEANO
本教程包括以下几个部分
1.Introduction To RNNs
2.Implementing a RNN using Python and Theano
3.Understanding the Backpropagation Through Time (BPTT) algorithm and the vanishing gradient problem
4.Implementing a GRU/LSTM RNN

本文我们将学习LSTM网络和GRUs(Gated Recurrent Units).LSTMs首次由 Sepp Hochreiter和 Jürgen Schmidhuber于1997年提出。GRUs，于2014年首次使用，是LSTMs的一个简单变体。

LSTM网络

LSTMs我们通过一个门限机制设计用来处理梯度消失问题。首先来看LSTM如何计算隐层状态 $s_t$ (用 $\circ$ 代表元素相乘)
$\begin{aligned} i &= \sigma(x_tU^i + s_{t-1} W^i) \\ f &= \sigma(x_t U^f + s_{t-1} W^f) \\ o &= \sigma(x_t U^o + s_{t-1} W^o) \\ g &= \sigma(x_t U^g + s_{t-1} W^g)\\ c_t &= c_{t-1} \circ f + g \circ i \\ s_t &= \tanh(c_t) \circ o \end{aligned}$

$i,f,o$ 分别叫做input，forget，output gates（门）。注意他们方程完全相同，只是参数不同。称其为门限，是因为sigmod函数将向量的值压缩到0-1之间，通过将其与另一个向量元素相乘，你就可以确定该向量的哪些部分可以通过。输入门定义了对输入新计算的状态的允许通过的部分。遗忘门定义了前一状态允许通过的程度，输出门定义了允许中间层输出暴露给外部网络的程度。
g是候选隐层状态，根据当前输入及前一隐层状态计算。与原始RNN计算方式完全相同。
$c_t$ 是中间记忆单元。是前一状态和遗忘门的乘积，以及新状态g和输入门的乘积。
对于记忆 $c_t$ 。不是所有的中间状态层与隐层状态相关。
标准RNN可以看做LSTMs的一个特例。即输入门置1，遗忘门置0，输出门置1。

LSTM Gating.
另外还有很多LSTM的变体。一个比较常见的变体是创建一个peephole连接，从而允许门限不仅依赖于上一隐层，还依赖于上一中间状态层。 LSTM: A Search Space Odyssey 介绍了各种LSTM结构。

GRUs

GRU的思想与LSTM十分类似，如公式：

$\begin{aligned} z &= \sigma(x_t U^z + s_{t-1} W^z) \\ r &=\sigma(x_t U^r + s_{t-1} W^r) \\ h &= tanh(x_t U^h + (s_{t-1} \circ r) W^h) \\ s_t &=(1-z) \circ h + z \circ s_{t-1} \end{aligned}$