深度学习中的正则化、评估指标与应对过拟合策略
1. 权重是否真的会趋近于零
在使用$\ell_2$正则化时,权重会快速趋近于零。以一个具有两个特征的人工数据集为例,对权重$w_{12}^{[5,3]}$(来自第3层)与训练轮数的关系进行绘图,在$\gamma = 10^{-3}$,$\lambda = 0.1$的情况下,经过1000轮训练后,权重值降至$2 \cdot 10^{-21}$,实际上可视为零。
| 层 | $\lambda = 0$时权重小于$1e - 3$的百分比 | $\lambda = 3$时权重小于$1e - 3$的百分比 |
|---|---|---|
| 1 | 0.0 | 52.7 |
| 2 | 0.25 | 53.8 |
| 3 | 0.75 | 46.3 |
| 4 | 0.25 | 45.3 |
| 5 | 0.0 | 60.0 |
从权重更新方程来看,当接近损失函数的最小值时,损失函数的导数近似为零,权重
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



