GRU
序列中并不是所有信息都同等重要,为了记住重要的信息和遗忘不重要的信息,最早的方法是”长短期记忆”(long-short-term memory,LSTM),这节门控循环单元(gated recurrent unit,GRU)是一个稍微简化的变体,通常能够提供同等的效果, 并且计算的速度明显更快。
理论
两个门(和隐藏状态类似)
重置门(虫豸们~)
Rt=σ(XtWxr+Ht−1Whr+br)R_t = \sigma(X_tW_{xr}+H_{t-1}W_{hr}+b_r)Rt=σ(XtWxr+Ht−1Whr+br)
更新门
Zt=σ(XtWxz+Ht−1Whz+bz)Z_t = \sigma(X_tW_{xz}+H_{t-1}W_{hz}+b_z)Zt=σ(XtWxz

本文介绍了门控循环单元(GRU)的工作原理,作为长短期记忆网络(LSTM)的简化版,GRU通过重置门和更新门控制信息流,以选择性地记住和遗忘序列中的信息。GRU包含两个门控机制,用于学习序列中的重要特征,同时减少计算复杂性。代码示例展示了如何在PyTorch中实现GRU,并进行训练。训练结果显示,GRU在理解和实现上相对简单,且在速度上有优势。
最低0.47元/天 解锁文章
1465

被折叠的 条评论
为什么被折叠?



