
Activation fucntion
sigmoid对深层网络效果不好,可能会导致梯度消失问题
sigmoid对输入比较大,得到的输出比较小


ReLU


Maxout
自动学习出来需要的activation function

梯度下降优化方式
AdaGrad

RMSProp
Adagrad改进版,对过去和现在的梯度(不带方向,平方去掉了方向)进行加权

动量Momentum
用于避开local minima

动量就是之前梯度的累计,相当于惯性(带方向)


Adam=RMSprop+Momentum

Early Stopping

正则化 Regularization

Dropout

使用dropout时,在training时效果会变差,但是主要用于test


本文探讨了深度学习中激活函数的选择,如ReLU与Maxout的优势,以及梯度下降优化方法,包括AdaGrad、RMSProp、Momentum和Adam等。同时介绍了避免过拟合的策略,如EarlyStopping和Dropout。
365

被折叠的 条评论
为什么被折叠?



