浅谈神经网络语言模型(NNLM)的理解

最新推荐文章于 2024-09-27 20:39:51 发布

So_that

最新推荐文章于 2024-09-27 20:39:51 发布

阅读量1.5k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Deep learning 文章标签： NNLM

本文链接：https://blog.youkuaiyun.com/So_that/article/details/92800259

Deep learning 专栏收录该内容

9 篇文章

订阅专栏

最近一直在使用各种Embedding的方法，于是好奇的看到了NNLM，总结一下自己的理解。

Forward

首先，我们假设一句话由 $w=(w_1,w_2,...,w_t)$ 组成（ $w_i$ 为单词），在语言模型中计算一句话的概率，我们用 $w_1,w_2,...,w_t$ 的联合概率来表示一句话的概率。如下：

$\bm{p(w)=p=(w_1,w_2,...,w_t)}\tag1$

也可以来判断一句话是否通顺，都是一个意思，通过条件概率得到如下变形：
$\begin{array}{ll} P(w_1, w_2, … , w_t)& = P(w_t | w_{t-1}, … , w_2, w_1) * P(w_{t-1}, … , w_2, w_1)\tag2 \\\\ & = p(w_1)*p(w_2|w_1)*p(w_3|w_1,w_2)*......*p(w_n|w_1,......,w_{n-1}) \end{array}$

根据马尔可夫假设,我们可以类似的认为离t最近n-1个词和它相关，从而可以得到：

$\bm{P(w_t | w_{t-1}, … , w_2, w_1)=P(w_t | w_{t-1}, w_{t-2}, … , w_{t-n+1})\tag3}$
另外，插一点题外话，若我们这里认为只和最近的1个词相关，便成了2-gram，同时我们可以把公式（2）变形如下：
$\begin{array}{ll} P(w_1, w_2, … , w_t)& = P(w_t | w_{t-1}, … , w_2, w_1) * P(w_{t-1}, … , w_2, w_1)\tag{2*} \\\\ & = p(w_1)*p(w_2|w_1)*p(w_3|w_1,w_2)*......*p(w_n|w_1,......,w_{n-1})\\\\ & = p(w_1)*p(w_2|w_1)*p(w_3|w_2)*......*p(w_n|w_{n-1}) \end{array}$

回归正题，我们这里假设词典为10000个词。分别对语料中的词进行one-hot编码（词典为语料中不重复的单词）。
一般来说，这个n是一个比较小的值。我们这里假设n=6，那么n-1=5.那么，我们可以认为输入是5个one-hot向量，我们把这个向量拼成一个[5 * 10000]的矩阵，由于向量的维度通常比较高，我们进行降维处理：右乘一个[10000 *100]的权重矩阵得到一个[5 * 100]的矩阵（这里不一定是100，只是举个例子）。

上面的这一段在原文里面其实是没有的，这样讲解是为了更好的理解，论文里面是通过index在C中进行一个查表操作。其实道理是一样的。

这个过程我们也可以理解为从one-hot到distributed representation的转化过程。这样就得到了特征向量。根据论文 Nerual Network Language Model写道：

a function g maps an input sequence of feature vectors for words in context, $C(w_{t−n+1}),··· ,C(w_{t−1}))$ , to a conditional probability distribution over words in V for the next word $w_t$

上面的 $C(w_{t−n+1}),··· ,C(w_{t−1}))$ 就是我们得到的特征向量，作者通过一个映射g来得到对 $w_t$ .的预测，

这个映射的设计结构如下图：

映射g的结构图

先是将特征向量进行拼接，也就是5*100的矩阵，拼接成一个500维的向量( $x$ )，然后将这个向量( $x$ )

经过 (4) 线性变换之后，再经过tanh处理得到一个100维的向量,如（5）：

$\bm{y_1=U tanh(d+Hx)}\tag4$

$\bm{[100*500]*[500*1]=[100*1]}\tag5$

然后左乘U得到一个10000维的向量 $y_1$ ,如（6）：
$\bm{[10000*100]*[100*1]=[10000*1]\tag6}$
接下来是对输入特征向量( $x$ )的处理 ,( $x$ )左乘一个[10000 * 500]的矩阵得到一个[10000 * 1]的向量：
$\bm{y_2 = b+Wx\tag7}$