深入理解顺序模型:GRU与LSTM的探索
1. GRU模型详解
1.1 候选隐藏状态的计算
GRU在每个时间步t,首先使用tanh激活函数,以当前输入 (x_{t}) 和前一隐藏状态 (h_{t-1}) 为输入来计算候选隐藏状态 (\hat{h} {t}),公式如下:
(\hat{h} {t}= \tanh(W_{h}[h_{t-1}, x_{t}] + b_{h}))
这里的 (\hat{h}_{t}) 就是隐藏层的候选值。与传统RNN计算隐藏状态的方式类似,但GRU引入候选隐藏状态为后续决策提供了更多灵活性。
1.2 更新门的引入
传统RNN中,每个时间步计算出的隐藏值会自动成为记忆单元的新状态。而GRU通过“更新门”(有时也称为“重置门”)带来了更细致的处理方式。更新门的作用是评估候选隐藏状态 (\hat{h}_{t}) 中的信息是否足以更新记忆单元的隐藏状态,还是让记忆单元保留前一时间步的旧隐藏值。
更新门由一个sigmoid层实现,输入为当前输入和前一隐藏状态,输出是一个介于0和1之间的值 (\Gamma_{u}),计算公式为:
(\Gamma_{u} = \text{sigmoid}(W_{u}[h_{t-1}, x_{t}] + b_{u}))
当 (\Gamma_{u}) 接近1时,更新门打开,选择 (\hat{h} {t}) 作为新的隐藏状态;当 (\Gamma {u}) 接近0时,更新门关闭,保留旧的隐藏状态。
1.3 隐藏单元的更新
在某一时间步,下一个隐藏状态 (h_{t}) 由以下
超级会员免费看
订阅专栏 解锁全文
64

被折叠的 条评论
为什么被折叠?



