Deep NetWork paper
QingerBig
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
论文阅读笔记--Deep Residual Learning for Image Recognition
随着大量深层网络的应用,深层网络表现出优异的性能,但存在以下两个主要问题:梯度消失/梯度爆炸性能退化问题其中,梯度的消失/爆炸可通过较好的初始化或者正则化手段进行缓解,但性能退化问题却无法通过上述手段进行解决,起初人们认为性能退化的原因来自于过拟合,但在文中作者认为,性能的退化并不是因为过拟合所导致,如图1所示:从图中我们可以看到,随着层数的增加,训练误差也上升显著,这说明退化问题的根源并不是过拟合问题。作者在文中提及的一种当时时间节点上的解决方案是通过添加恒等变换层(identity ma原创 2021-01-21 16:35:26 · 287 阅读 · 0 评论 -
论文精读(1)-- Lipschitz constrained parameter initialization for deep transformers
概览改变residual connection与layer normalization的位置可以缓解深层Transformer难以优化的问题。作者比较了计算顺序(residual connection与layer normalization的位置)上的细微差别,并提出了一种参数初始化方法,该方法利用Lipschitz约束对Transformer的参数进行初始化。即使不调整原来的计算顺序,应用Lipschitz约束进行参数初始化,也可以使得模型正常收敛。1、引言多层网络可以增强模型的容量,但同原创 2020-09-22 16:47:04 · 605 阅读 · 0 评论
分享