从Cell State开始
在下面的过程中,我们总是用语言模型作为例子来说明,心中始终有个具体例子对照,可以大大减轻理解上的困难。
来看这句话:“我是中国人,我会说中文”,我们的任务是根据这句话前面的内容,预测最后的两个字“中文”。要做到这一点,模型必须能够记住前面的信息,尤其是“中国人”。在LSTM中,记住前面的信息是通过Cell State来实现的。
所以,在理解LSTM的结构时,应始终以 Cell State为中心,这样就抓住了理解其结构的关键。
先来看一张LSTM的完整结构图,然后我们再来一步步从Cell State开始分析里面的内容。
完整图如下:
Cell State 的传递过程如下所示:
我们看到,当xt输入到Cell中后,Cell State 从Ct-1变到了Ct。
C是一个向量,向量的维度是我们自己来选择的,如果我们选256,就表示我们想要用256位来保存记忆信息,这个维度越大,相当于记忆的容量越大,可保存的信息自然越多,但是需要训练的参数也会越多。
我们看到,Ct-1到Ct共经过了两步操作,第一步是一个point wise 的乘法操作,第二步是一个point wise的加

最低0.47元/天 解锁文章
5006

被折叠的 条评论
为什么被折叠?



