作者通过深度线性网络的例子对照证明了导致最终网络性能变差的原因并不是梯度消失,而是权重矩阵的退化,导致模型的有效自由度减少,并指出该结论可以推广到非线性网络中
良心博主
https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650735824&idx=1&sn=1720a687f197538b23d8d329e87998fb&chksm=871ac0aeb06d49b826d8f7d6370e2fc9768c57c4d8ef3ed8dd90ae97d33bbf5fb50d0c6a6d03&mpshare=1&scene=23&srcid=0107R95kMPAtSkgppqJnBLOb#rd