为什么ReLU比较好?
(https://devblogs.nvidia.com/parallelforall/deep-learning-nutshell-history-training/)
这篇文章有一个解释:Sigmod函数在x比较大的时候,梯度很小,所以收敛很慢,而ReLU在x>0时梯度恒定为1,收敛速度比Sigmod快,所以现在梯度比较大的激活函数比较受欢迎。
L1 AND L2 REGULARIZATION
上面那篇文章也有解释,但是没太看懂, 如下文章说得更多一些,但是老是说是还是不太懂。基本的意思似乎是说是选择的权重参数更合理,减少过拟合,难道训练数据非常多的时候也需要这样搞?
http://blog.youkuaiyun.com/zouxy09/article/details/24971995/
还看到一个说法:L2 regularization也叫weight decay
各种梯度下降算法的解释
感觉结论是Adam是比较有效的GD算法。