深度学习
feifeiziPro
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
深度学习预处理
Dropout,正向传播时随机将每一层的几个神经元置为0,避免过拟合,也可以把权重矩阵随机置0。网络之间插入:batch normalization,归一化之后可以适当的放缩。bath normalization,数据增强和上面都是一种正则化的手段。优化梯度下降,加入一个动量项,动量初值一般为0还有nesterov方法。训练过程中学习率动态衰减,带动量的SGD用的较多,Adam较少。梯度下降的问题:做之字运动,会掉入极小值点。前面两行的方法同时用,Adam。学习率:1e-3~1e-5。原创 2022-10-16 11:28:29 · 330 阅读 · 1 评论 -
深度学习中常见的非线性函数(激活函数)
仔细观察这个函数你会发现,只有在x等于0的附近这个函数的才有较大的梯度,其余地方梯度都很小,如果我们的x很大,或者很小梯度甚至会接近0,在进行梯度下降时会造成梯度消失的现象,反向传播得到的梯度很小,每次只对权重w更新一点点甚至不更新,造成梯度下降缓慢。首先是最常见的Sigmod函数,每一个输入值都会被压缩到(0,1)的范围内,在x接近0的一小段范围内可以近似得将它看作线性函数,x稍微比0大一点,它的值就非常接近1,稍微比0小一点,它的值就非常接近0。函数输入原创 2022-08-22 15:30:35 · 4596 阅读 · 0 评论
分享