转载地址:Written Memories: Understanding, Deriving and Extending the LSTM
这篇文章前半段讲得挺好的,尤其是梯度消失那一块,并没有从BPTT的角度解释;而是从状态变化近端远端相互影响的角度。文章后段充斥着各种引用,文字个人感觉不够精炼~~,非有精力和有时间的人不能细读。
这篇文章的简化易懂版:https://medium.com/@godricglow/a-deeper-understanding-of-nnets-part-3-lstm-and-gru-e557468acb04
本文从前半部分深入浅出地解析了LSTM的工作原理,特别是对于梯度消失问题的探讨,并未采用传统的BPTT角度,而是从状态变化的角度进行了解释。此外,还对比了GRU网络的特点。
34

被折叠的 条评论
为什么被折叠?



