-
使用均方范数作为硬性限制
- 通过限制参数值的选择范围来控制模型容量
min ℓ ( w , b ) subject to ∥ w ∥ 2 ≤ θ \min \ell(\mathbf{w}, b) \quad \text { subject to }\|\mathbf{w}\|^{2} \leq \theta minℓ(w,b) subject to ∥w∥2≤θ - 通常不限制 b b b (限不限制都差不多)
- 小的 θ \theta θ意味着更强的正则项
- 通过限制参数值的选择范围来控制模型容量
-
使用均方范数作为柔性限制
-
对每个 θ \theta θ,都可以找到 λ \lambda λ使得之前的目标函数等价于下面
min ℓ ( w , b ) + λ 2 ∥ w ∥ 2 \min \ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^{2} minℓ(w,b)+2λ∥w∥2
可以通过拉格朗日乘子来证明 -
超参数 λ \lambda λ控制了正则项的重要程度
- λ = 0 \lambda=0 λ=0:无作用
- λ → ∞ \lambda \rightarrow \infty λ→∞, w ∗ → 0 \mathbf{w}^* \rightarrow \mathbf{0} w∗→0
-
-
参数更新法则
-
计算梯度
∂ ∂ w ( ℓ ( w , b ) + λ 2 ∥ w ∥ 2 ) = ∂ ℓ ( w , b ) ∂ w + λ w \frac{\partial}{\partial \mathbf{w}}\left(\ell(\mathbf{w}, b)+\frac{\lambda}{2}\|\mathbf{w}\|^{2}\right)=\frac{\partial \ell(\mathbf{w}, b)}{\partial \mathbf{w}}+\lambda \mathbf{w} ∂w∂(ℓ(w,b)+2λ∥w∥2)=∂w∂ℓ(w,b)+λw -
时间 t t t更新参数
w t + 1 = ( 1 − η λ ) w t − η ∂ ℓ ( w t , b t ) ∂ w t \mathbf{w}_{t+1}=(1-\eta \lambda) \mathbf{w}_{t}-\eta \frac{\partial \ell\left(\mathbf{w}_{t}, b_{t}\right)}{\partial \mathbf{w}_{t}} wt+1=(1−ηλ)wt−η∂wt∂ℓ(wt,bt)通常 η λ < 1 \eta \lambda < 1 ηλ<1,在深度学习中通常叫做权重衰退
-
12 权重衰退 [动手学深度学习v2]
最新推荐文章于 2025-05-01 21:42:17 发布