
DL
Ein027
这个作者很懒,什么都没留下…
展开
-
RELU
优点1:Krizhevsky et al. 发现使用 ReLU 得到的SGD的收敛速度会比 sigmoid/tanh 快很多(如上图右)。有人说这是因为它是linear,而且梯度不会饱和 优点2:相比于 sigmoid/tanh需要计算指数等,计算复杂度高,ReLU 只需要一个阈值就可以得到激活值。 缺点1: ReLU在训练的时候很”脆弱”,一不小心有可能导致神经元”坏死”。举个例子:由于ReL原创 2017-04-19 23:39:23 · 2627 阅读 · 0 评论 -
什么时候可以将神经网络的参数全部初始化为0?
用SGD训练神经网络时, 怎样决定初始化参数的方式? 主要有两个考虑点: 一: 最终是否能得到想要的学习结果, 即是否能得到一个符合预期目标的分类器;二: 训练时间, 好的参数初始化可以有效缩短训练时间, 如预训练.不加思考时, 将所有参数都初始化为0是最省力的做法. 有些情况下可行, 但大部分情况下会导致学习失败, 得不到可用的模型.先看最简单的例子: 用逻辑回归算法识别手写数字MNIST. 逻辑原创 2017-04-20 00:47:23 · 4826 阅读 · 0 评论