缓解过拟合
权重衰减
- 权重衰减等价于L2范数正则化(regularization)。
- L2范数正则化在模型原损失函数基础上添加L2范数惩罚项,从而得到训练所需要最小化的函数。 L2范数惩罚项指的是模型权重参数每个元素的平⽅和与⼀个正的常数的乘积。
丢弃法
丢弃法有⼀些不同的变体。本节中提到的丢弃法特指倒置丢弃法(inverteddropout)
- 设丢弃概率为ppp,那么有ppp的概率hih_ihi会被清零,有1−p1-p1−p的概率hih_ihi会除以1−p1-p1−p做拉伸。丢弃概率是丢弃法的超参数。具体来说,设随机变量ξi\xi_iξi为0和1的概率分别为ppp和1−p1-p1−p。使用丢弃法时我们计算新的隐藏单元hi′h_i'hi′
hi′=ξi1−phi.h_i' = \frac{\xi_i}{1-p} h_i.hi′=1−pξihi.
由于E(ξi)=1−pE(\xi_i) = 1-pE(ξi)=1−p,因此
E(hi′)=E(ξi)1−phi=hi.E(h_i') = \frac{E(\xi_i)}{1-p}h_i = h_i.E(hi′)=1−pE(ξi)hi=hi.
即丢弃法不改变其输入的期望值。 - 由于在训练中隐藏层神经元的丢弃是随机的,即h1,…,h5h_1, \ldots, h_5h1,…,h5都有可能被清零,输出层的计算无法过度依赖h1,…,h5h_1, \ldots, h_5h1,…,h5中的任一个,从而在训练模型时起到正则化的作用,并可以用来应对过拟合。
- 在测试模型时,我们为了拿到更加确定性的结果,一般不使用丢弃法。
- 通常的建议是把靠近输⼊层的丢弃概率设得小⼀点。