
机器学习笔记&面经
文章平均质量分 81
本专栏主要记录学习机器学习时的笔记或面经
ZJ_1116
这个作者很懒,什么都没留下…
展开
-
为什么通常ReLU比Sigmoid效果好
1、ReLU的计算速度比Sigmoid更快,因为ReLU只涉及简单的阈值比较和取最大值的操作。这在训练大型深度网络时可以节省大量的计算资源。2、Sigmoid函数的导数在接近其两个极端(0和1)时非常接近于0,这会导致反向传播中的梯度消失问题。这意味着在深层网络中,通过多个Sigmoid层传播梯度时,梯度会逐渐变得非常小,导致网络训练变得非常缓慢,甚至无法收敛。ReLU通过在正数部分保持导数为1,从而更好地解决了梯度消失问题。3、在ReLU中,负数部分被截断为0,所以在每个神经元上只有一部分激活。原创 2023-09-20 10:19:10 · 1412 阅读 · 0 评论 -
SGD、Momentum、AdaGrad、RMSProp和Adam的区别
SGD是最基本的优化算法之一。它通过在每次迭代中计算损失函数关于权重的梯度(对一小批量训练样本),然后沿着梯度的反方向来最小化损失。原创 2023-09-14 17:16:32 · 1790 阅读 · 0 评论