一、GRU
首先需要明确的是,GRU出现的时间是在LSTM之后的,其实为了简化LSTM而产生的,由于其简易型,一般都会先进行介绍。
首先来看一下RNN的示意图,如下。这里不做解释。
下图是GRU的示意图,相较于RNN似乎复杂了许多。其只是增加了一个cell来存储需要远程传递的信息以及相应的gate来管控信息的传递。
前一层的隐藏状态与本层的输入合在一起分别进入激活函数中,得到重置门R,更新门Z。
随后重置门决定前一层的隐藏状态如何参与本层的输入计算,得到候选隐藏状态。这里重置门的大小主要决定前一层的输出结果与本层的输出结果的关系。
更新门则是决定是否使用候选隐藏状态来更新隐藏状态,还是使用上一层的状态进行传播。这里非此即彼。
事实上,从公式中来观察GRU可能更加易懂。
两个门的计算都是根据前一层H和