Character-Aware Neural Language Models

深度学习语言模型

最新推荐文章于 2024-12-07 11:28:07 发布

原创最新推荐文章于 2024-12-07 11:28:07 发布 · 966 阅读

CC 4.0 BY-SA版权

40 篇文章

订阅专栏

本文介绍了一种基于深度学习的语言模型架构，包括字符级卷积神经网络、LSTM-RNN和HighwayNetwork。模型通过卷积层捕捉词内信息，利用LSTM处理长距离依赖，并通过HighwayNetwork改善性能。

参考链接

一般RNN的计算公式如下： $h_t=f(W*x_t+U*h_{t-1}+b)$ 其中 $W$ 和 $U$ 为模型参数， $x_t$ 为当前位置的词向量， $h_(t-1)$ 是上一时刻的隐藏层状态。理论上，RNN可以用隐藏状态 $h_t$ 汇总从开始到时间 $t$ 的所有历史信息。但是实际上，由于消失/爆炸的梯度，学习远程依赖信息是困难的。
LSTM-RNN解决了学习长距离依赖关系的信息的问题，通过在RNN中增加一个记忆单元 $c_t$ 。具体计算公式如下： $i_t=σ(W^i x_t+U^i h_{t-1}+b^i)$ $f_t=σ(W^f x_t+U^f h_{t-1}+b^f)$ $o_t=σ(W^o x_t+U^o h_{t-1}+b^o)$ $g_t=tanh(W^g x_t+U^g h_{t-1}+b^g)$ $c_t=f_t*c_{t-1} + i_t*g_t$ $h_t=o_t*tanh⁡(c_t)$ $σ (\cdot)$ 和 $t a n h (\cdot)$ 是族元素的sigmoid函数和双曲正切函数。 $*$ 是逐点乘积
LSTM中的 $c_t$ 缓解梯度消失的问题但是梯度爆炸依然存在。通过简单的梯度优化操作（gradient clipping）能够很好的解决这个问题。

假定 $C$ 表示字符表， $V$ 为词汇表， $Q∈R^{d×|C|}$ 为字符向量矩阵， $k$ 为词汇表 $V$ 中的一个词， $k$ 由字符 $c_1,c_2,…,c_l]组成$ 长度为 $l$ ，则词经过 $Q$ 可以表示为矩阵 $C^k∈R^{d×l}. H∈R^{d×w}$ 为过滤器，其中 $w$ 为过滤器宽度， $f^k$ 为卷积层的输出，其计算公式： $f^k [i]=tanh(<C^k [*,i:i+w-1],H>+b)$ $< A, B >$ 表示A和B的Frobenius内积。 $<A,B>_F=∑_{i,j}\overline{A_{i,j} } *B_{i,j}=tr(\overline{A}*B^T)$ 其中 $\overline{A_{i,j} }$ 表示复数的共轭数（将复数部分的符号取反）， $*$ 表示内积， $t r$ 矩阵的迹。
注意：当A，B为实数矩阵式，其结果就是对应元素相乘再求和
由上面公式我们可以看出来 $f^k$ 是一个向量长度为： $l - w + 1$ .所以卷积层的输出 $f$ 就是一个矩阵长度为12(12个过滤器).则卷积层后面的最大池化层公式为： $y^k=\max_{i}(f^k [i])$ 由公式可知y是一个长度为12的向量。

我们可以直接将最大池化层是输出向量 $y$ 作为词向量了输入到LSTM-RNN中，也可以得到一个不错的性能。但是我们将 $y$ 再经过一个多层的全连接层再输入到LSTM-RNN确发现效果变得更差。
在最大池化层加上一个highway network可以改善模型性能，highway network的公式如下： $Z=t*g(W_H+b_H )+(1-t)*y$ $t=σ(W_T y+b_T)$ 注意:y和z的形状必须相同所以W_T,W_T必须是方正