目录
1 . Drop out
2 . L1 -正则化
可能会产生稀疏的参数,很多w的值为0.
3 . L2- 正则化
主要有一个超参数
,如果
值很大,也就意味着W 权重越小,越接近于0(一个直观的解释,也可以证明)。如果有些权重接近于0,相当于一个神经元是不起作用,这样子拟合效果就会减弱,可以防止过拟合。
另一种解释: 如果w接近于零。用 tanh 作为激活函数如下图。
如果w 越接近0,激活函数越接近现行函数,拟合效果也就越差劲。
4 . Max Norm