论文解析-《Understanding the difficulty of training deep feedforward neural networks》

最新推荐文章于 2022-01-29 15:48:53 发布

wayen820

最新推荐文章于 2022-01-29 15:48:53 发布

阅读量1.6k

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：深度学习 xavier

本文链接：https://blog.youkuaiyun.com/qq_29573053/article/details/80497554

深度学习专栏收录该内容

17 篇文章

订阅专栏

本文探讨了深度网络中参数初始化的重要性，通过实验展示了不同激活函数下的网络表现，并提出了xavier初始化方法，以解决梯度消失与爆炸的问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

这篇论文详细解析了深度网络中参数xavier初始化方法，这里做一下读书笔记，同时记录一下自己的理解。

1 引言

经典前馈神经网络其实很早就有了（Remelhart et al.,1986），近年来对深度监督神经网络的一些成果只不过在初始化和训练方法跟以前有点区别，可是为什么能够取得这么好的结果？部分原因可能是使用非监督训练方法来初始化网络，使得网络整体处于一个比较好的优化状态。但是更早的一些研究(Bengio et al.,2007)显示，使用greedy layer-wise procedure的方法能够得到更好的结果，这篇论文没有把精力放在深度网络的非监督的预训练方法，而是着眼于多层神经网络究竟哪个环节出了问题（才会导致直接训练效果不佳）

2实验一

作者使用了一个四层的网络，使用sigmoid激活函数，权重层bias初始化为0，weight取下面的均匀分布，n是前一层输入维度

在Shapeset-3*2的数据上训练，训练过程中，使用300副测试图测试，得到各层激活函数值，分别统计出均值和方差，结果得到了下图，图中曲线代表均值，总线条代表方差，可以看到训练一刚开始，最后一层就饱和了（sigmoid范围0-1），训练过了很久，终于走出饱和区了。可是为什么会这样？

作者提出了解释是这样的，刚开始时，整个网络参数都是随机初始化的，这时低层计算得到的数据对整个分类没带任何分类信息，逻辑层softmax(b+Wh)的学习会更多的去调节b，而把Wh压制到0（毕竟Wh对分类无帮助，属于噪音），继而将h推向0，然而sigmoid输出0，意味着饱和，梯度就传递不过去了，低层的学习过程就被阻碍了。这也是实践中sigmoid慢慢被抛弃的原因了，如果我们将激活函数换成在0附近梯度不为零的Hyperbolic tangent呢？