目录
摘要
本文介绍了集长短期记忆网络(LSTM)的变体,有门控制单元(GRU)、“peephole connection LSTM”和耦合忘记门与输入门的LSTM。此外,文章还介绍了自注意力机制,并详细阐述了其计算流程。
Abstract
This article introduces variants of the Long Short-Term Memory (LSTM) network, including the Gated Recurrent Unit (GRU), "peephole connection LSTM," and the coupled forget gate and input gate LSTM. In addition, the article discusses the self-attention mechanism and provides a detailed explanation of its computational process.
1. GRU(门控制单元)
GRU(门控制单元)之前学过的 LSTM(长短期记忆网络)的变体。
上图是普通RNN循环单元的可视化呈现,由第七周对LSTM的学习可知,普通的RNN主要存在两个问题:前部序列在传递到后部时,信息权重下降,导致重要信息丢失;求解过程中出现梯度消失和梯度爆炸问题。LSTM通过引进长期记忆单元来保存重要信息,来解决以上问题,GRU与LSTM类似,通过引入门控制来对信息有选择性的进行不同程度的保留。
上图就是简化的GRU,它的优点来自引入的门控制单元。如图所示,当从左往右扫描一个句子时,门单元就决定是否对记忆细胞的某个内容进行更新,如cat中有单复数的记忆,而到“was”前,这个单复数的记忆不能被更新,而预测到“was”之后可以被更新(遗忘),所以在“was”之前的门控制函数一直为“0”,而“was”之后可以为“1”,这就达到了控制记忆细胞更新的效果。
以上就是GRU最重要的思想,现在来看完整的GRU。
对于完整的GRU单元我要做的一个改变就是在我们计算的第一个式子中给记忆细胞的新候选值加上一个新的项,需要添加一个相关门(图中标号1的符号) ,这个门代表用于计算下一个的候选值