动手学深度学习读书笔记-6

博客介绍了缓解过拟合的两种方法。权重衰减等价于L2范数正则化,在原损失函数基础上加L2范数惩罚项。丢弃法特指倒置丢弃法,通过随机清零隐藏单元,使输出层计算不过度依赖单个单元,训练时起正则化作用,测试时一般不用,且靠近输入层丢弃概率宜设小。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

缓解过拟合

权重衰减

  • 权重衰减等价于L2范数正则化(regularization)。
  • L2范数正则化在模型原损失函数基础上添加L2范数惩罚项,从而得到训练所需要最小化的函数。 L2范数惩罚项指的是模型权重参数每个元素的平⽅和与⼀个正的常数的乘积。

丢弃法

丢弃法有⼀些不同的变体。本节中提到的丢弃法特指倒置丢弃法(inverteddropout)

  • 设丢弃概率为ppp,那么有ppp的概率hih_ihi会被清零,有1−p1-p1p的概率hih_ihi会除以1−p1-p1p做拉伸。丢弃概率是丢弃法的超参数。具体来说,设随机变量ξi\xi_iξi为0和1的概率分别为ppp1−p1-p1p。使用丢弃法时我们计算新的隐藏单元hi′h_i'hi
    hi′=ξi1−phi.h_i' = \frac{\xi_i}{1-p} h_i.hi=1pξihi.
    由于E(ξi)=1−pE(\xi_i) = 1-pE(ξi)=1p,因此
    E(hi′)=E(ξi)1−phi=hi.E(h_i') = \frac{E(\xi_i)}{1-p}h_i = h_i.E(hi)=1pE(ξi)hi=hi.
    即丢弃法不改变其输入的期望值。
  • 由于在训练中隐藏层神经元的丢弃是随机的,即h1,…,h5h_1, \ldots, h_5h1,,h5都有可能被清零,输出层的计算无法过度依赖h1,…,h5h_1, \ldots, h_5h1,,h5中的任一个,从而在训练模型时起到正则化的作用,并可以用来应对过拟合。
  • 在测试模型时,我们为了拿到更加确定性的结果,一般不使用丢弃法。
  • 通常的建议是把靠近输⼊层的丢弃概率设得小⼀点。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值