Deep Sparse Rectifier Neural Networks（阅读）

最新推荐文章于 2025-11-11 20:27:07 发布

原创最新推荐文章于 2025-11-11 20:27:07 发布 · 6.9k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

论文阅读专栏收录该内容

18 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

1、脑神经元接受信号更精确的激活模型（红框里前端状态完全没有激活）：

传统神经网络中最常用的两个激活函数，Sigmoid系（Logistic-Sigmoid、Tanh-Sigmoid）

Rectifier and softplus激活函数：

Softplus函数是Logistic-Sigmoid函数原函数， Softplus(x)=log(1+e x ) ，Softplus可以看作是强制非负校正函数max(0,x) 平滑版本。经验规则的初始化W之后，传统的Sigmoid系函数同时近乎有一半的神经元被激活，这不符合神经科学的研究，而且会给深度网络训练带来巨大问题。校正函数max(0,x) 成了近似符合该模型的诠释。

2、稀疏性的优点

原始数据（以自然数据为主）中通常缠绕着高度密集的特征，从原始数据中分离出关键特征数据。
有效的可变表示，不同的输入可能包含着大小不同关键特征，使用大小可变的数据结构去做容器，则更加灵活。
线性可分性，稀疏特征有更大可能线性可分，或者对非线性映射机制有更小的依赖。
稠密分布但是稀疏，稠密缠绕分布着的特征是信息最富集的特征，往往比局部少数点携带的特征成倍的有效。而稀疏特征，正是从稠密缠绕区解离出来的。

3、为什么引入Relu？

采用sigmoid等函数，反向传播求误差梯度时，求导计算量很大，而Relu求导非常容易。
对于深层网络，sigmoid函数反向传播时，很容易就会出现梯度消失的情况（在sigmoid接近饱和区时，变换太缓慢，导数趋于0），从而无法完成深层网络的训练。
Relu会使一部分神经元的输出为0，这样就造成了网络的稀疏性，并且减少了参数的相互依存关系，缓解了过拟合问题的发生（以及一些人的生物解释balabala）。

4、过分的强制稀疏处理，会减少模型的有效容量。即特征屏蔽太多，导致模型无法学习到有效特征。论文中对稀疏性的引入度做了实验，理想稀疏性（强制置0）比率是70%~85%。超过85%，网络就容量就成了问题，导致错误率极高。ReLu只有负值才会被稀疏掉，即引入的稀疏性是可以训练调节的，是动态变化的。只要进行梯度训练，网络可以向误差减少的方向，自动调控稀疏比率，保证激活链上存在着合理数量的非零值。

5、ReLu的使用，使得网络可以自行引入稀疏性。这一做法，等效于无监督学习的预训练。论文中给出的数据显示，没做预训练情况下，ReLu激活网络遥遥领先其它激活函数。

Effect of unsupervised pre-training

6、ReLu缩小了非监督学习和监督学习之间的差距，这种深度稀疏矫正网络不仅有利于分类问题而且可能对文本挖掘工具有帮助。

您可能感兴趣的与本文相关的镜像

TensorFlow-v2.15

TensorFlow-v2.15

TensorFlow

TensorFlow 是由Google Brain 团队开发的开源机器学习框架,广泛应用于深度学习研究和生产环境。它提供了一个灵活的平台,用于构建和训练各种机器学习模型

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。