PTB递归神经网络阅读笔记

最新推荐文章于 2021-11-04 16:16:42 发布

原创最新推荐文章于 2021-11-04 16:16:42 发布 · 1k 阅读

CC 4.0 BY-SA版权

本文是关于PTB模型中递归神经网络（RNN）及其变种LSTM的阅读笔记。RNN是动态网络，适用于处理时序数据，如语音识别、语义理解等。LSTM通过记忆单元改善了RNN处理长时序问题的能力。文章介绍了LSTM单元的结构和工作原理，并提及了词汇表构建方法。

PTB递归神经网络阅读笔记

R ECURRENT N EURAL N ETWORK R EGULARIZATION

在神经网络模型中，一般分为非时序模型和时序模型，对于非时序模型而言，其应用场景有单一手写字识别、图像物体分类等等，最基本的模型是前馈式神经网络（FNN）；而对于时序模型而言，其应用场景十分广泛，如连续手写字识别、语音识别、语义理解、机器翻译、看图说话、自动生成、数据压缩等等，最基础的模型是循环神经网络（RNN）。今天我们着重谈论的是RNN的基础概念。
enter image description here
RNN最初也是受人类的生物神经模型启发而来，因为所有的生物神经系统都是一个动态的系统，神经元与神经元之间不是孤立的而是互相产生动态影响的，这就促发了RNN的诞生。RNN相比普通的FNN的主要区别有：

FNN的神经元是静态的，而RNN是一个动态的网络，其神经元的状态时刻处于动态变化之中
如果说FNN可以进行任意的非线性映射，那么RNN则可以拟合任意的动态系统
FNN的训练一般采用后向传播（BP）算法，而RNN一般采用随时间的后向传播（BPTT）算法>
FNN在拟合非线性系统上取得了很大的成功，但是RNN在处理长时间时序问题上还存在着很大不足

3 通过LSTM单元来调整RNNs
所有状态的大小都是n尺寸的。让 $h_t^l \in R^n$ 是在 $l$ 层时间步为 $t$ 的一个隐藏状态。此外，让 $T_{n,m}:R^n \to R^m$ 表示映射转变（ $Wx+b$ 对于某些 $W$ 和 $b$ ?什么意思）。 $\bigodot$ 表示逐元相乘操作， $h_t^0$ 表示一个在时间步 $k$ 的词向量。我们使用激活的 $h_t^L$ 来预测 $y_t$ ，因此 $L$ 是在深度LSTM中的层数。

3.1 LSTM单元
RNN动态网络能够描述成使用确定的转变从先前的状态到目前的隐藏状态。这个确定的状态转变函数如下：

R N N : h l t - 1, h l t - 1 \to h l t

$RNN:h_t^l-1,h_{t-1}^l \to h_t^l$
对于经典的RNNs网络，状态转变函数如下：

h l t = f (T n, n h l - 1 t + T n, n h l t - 1), 这 里 f \in {s i g m, t a n h}

$h_t^l=f(T_{n,n}h_t^{l-1}+T_{n,n}h_{t-1}^l),这里f\in \lbrace sigm,tanh \rbrace$

LSTM具有复杂的动态网络，这让LSTM网络能够很容易的“记忆”若干延长时间步的信息。这个“长期记忆”是被存储在记忆单元 $c_t^l \in R^n$ 的向量里。尽管许多LSTM单元的构建在他们的连接构建和激活函数方面都有些不同，但是所有的LSTM的构建都有明确的记忆单元用来存储一个长周期的信息。LSTM单元能够在下一个时间步重写记忆单元恢复记忆单元，或者保持记忆单元。这里有LSTM单元的构建公式如下：

L S T M : h l - 1 t, h l t - 1, c l t - 1 \to h l t, c l t

$LSTM:h_t^{l-1},h_{t-1}^l,c_{t-1}^l \to h_t^l,c_t^l$

⎛ ⎝ ⎜ ⎜ ⎜ i f o g ⎞ ⎠ ⎟ ⎟ ⎟ = ⎛ ⎝ ⎜ ⎜ ⎜ s i g m s i g m s i g m t a n h ⎞ ⎠ ⎟ ⎟ ⎟ T 2 n, 4 n (h l - 1 t h l t - 1)

$\begin{pmatrix} i \\ f \\o \\g \\ \end{pmatrix}= \begin{pmatrix} sigm \\ sigm \\sigm \\tanh \\ \end{pmatrix} T_{2n,4n} \begin{pmatrix} h_t^{l-1} \\ h_{t-1}^l \\ \end{pmatrix}$