12 权重衰退 [动手学深度学习v2]

最新推荐文章于 2025-05-01 21:42:17 发布

Grin*

最新推荐文章于 2025-05-01 21:42:17 发布

阅读量536

点赞数

分类专栏：跟李沐学AI 文章标签：人工智能深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/gpx33333/article/details/121480267

版权

跟李沐学AI 专栏收录该内容

17 篇文章

订阅专栏

"这篇博客探讨了使用均方范数作为正则化手段来控制模型复杂度。通过设置参数范数上限，可以实现硬性或柔性的限制。文章介绍了当λlambdaλ为不同值时对模型的影响，并详细阐述了参数更新的梯度下降法则，以及在深度学习中权重衰减的概念。"

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

使用均方范数作为硬性限制
- 通过限制参数值的选择范围来控制模型容量
  $\min \ell(\mathbf{w}, b) \quad \text { subject to }\|\mathbf{w}\|^{2} \leq \theta$
- 通常不限制 $b$ (限不限制都差不多)
- 小的 $\theta$ 意味着更强的正则项
使用均方范数作为柔性限制
- 对每个 $\theta$ ，都可以找到 $\lambda$ 使得之前的目标函数等价于下面
  $\min \ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^{2}$
  可以通过拉格朗日乘子来证明
- 超参数 $\lambda$ 控制了正则项的重要程度
  - $\lambda=0$ ：无作用
  - $\lambda \rightarrow \infty$ ， $\mathbf{w}^* \rightarrow \mathbf{0}$
参数更新法则
- 计算梯度
  $\frac{\partial}{\partial \mathbf{w}}\left(\ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^{2}\right)=\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w}$
- 时间 $t$ 更新参数
  $\mathbf{w}_{t+1}=(1-\eta \lambda) \mathbf{w}_{t}-\eta \frac{\partial \ell\left(\mathbf{w}_{t}, b_{t}\right)}{\partial \mathbf{w}_{t}}$
  
  通常 $\eta \lambda < 1$ ，在深度学习中通常叫做权重衰退

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。