动手学深度学习读书笔记-6

最新推荐文章于 2023-12-04 15:09:05 发布

原创最新推荐文章于 2023-12-04 15:09:05 发布 · 289 阅读

CC 4.0 BY-SA版权

20 篇文章

订阅专栏

博客介绍了缓解过拟合的两种方法。权重衰减等价于L2范数正则化，在原损失函数基础上加L2范数惩罚项。丢弃法特指倒置丢弃法，通过随机清零隐藏单元，使输出层计算不过度依赖单个单元，训练时起正则化作用，测试时一般不用，且靠近输入层丢弃概率宜设小。

缓解过拟合

权重衰减等价于L2范数正则化（regularization）。
L2范数正则化在模型原损失函数基础上添加L2范数惩罚项，从而得到训练所需要最小化的函数。 L2范数惩罚项指的是模型权重参数每个元素的平⽅和与⼀个正的常数的乘积。

丢弃法有⼀些不同的变体。本节中提到的丢弃法特指倒置丢弃法（inverteddropout）

设丢弃概率为 $p$ ，那么有 $p$ 的概率 $h_i$ 会被清零，有 $1 - p$ 的概率 $h_i$ 会除以 $1 - p$ 做拉伸。丢弃概率是丢弃法的超参数。具体来说，设随机变量 $ξi\xi_i$ 为0和1的概率分别为 $p$ 和 $1 - p$ 。使用丢弃法时我们计算新的隐藏单元 $hi′h_i'$
$hi′=ξi1−phi.h_i' = \frac{\xi_i}{1-p} h_i.$
由于 $E(ξi)=1−pE(\xi_i) = 1-p$ ，因此
$E(hi′)=E(ξi)1−phi=hi.E(h_i') = \frac{E(\xi_i)}{1-p}h_i = h_i.$
即丢弃法不改变其输入的期望值。
由于在训练中隐藏层神经元的丢弃是随机的，即 $h1,…,h5h_1, \ldots, h_5$ 都有可能被清零，输出层的计算无法过度依赖 $h1,…,h5h_1, \ldots, h_5$ 中的任一个，从而在训练模型时起到正则化的作用，并可以用来应对过拟合。
在测试模型时，我们为了拿到更加确定性的结果，一般不使用丢弃法。
通常的建议是把靠近输⼊层的丢弃概率设得小⼀点。