Deep learning II - I Practical aspects of deep learning - Regularizing your neural network 神经网络范数正则化

最新推荐文章于 2024-04-18 11:06:35 发布

转载最新推荐文章于 2024-04-18 11:06:35 发布 · 255 阅读

·

0

·

文章标签：

算法同时被 3 个专栏收录

34 篇文章

订阅专栏

29 篇文章

订阅专栏

29 篇文章

订阅专栏

博客主要介绍神经网络正则化，先以逻辑回归正则化为例，给出无正则、L1和L2正则的表达式。接着阐述神经网络的Frobenius正则（类似L2正则）表达式。还指出正则化的反向传播在更新参数时会进行权重衰减。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Regularizing your neural network 神经网络正则化

Logistic regression regularization

先用简单的逻辑回归正则化作为例子，因为神经网络的参数 $W$ 是2维的。

无正则

$J (w, b) = \frac{1}{m} \sum_{i = 1}^{m} L ({\hat{y}}^{(i)} - y^{(i)})$
- $L_2$ 正则
  
  $J (w, b) = 1 m \sum i = 1 m L (y^(i) - y (i)) + λ 2 m | | w | | 22$ $J(w,b) = \frac{1}{m} \sum_{i=1}^{m} {\cal L}(\hat{y}^{(i)} - y^{(i)}) + \frac{\lambda}{2m}||w||^2_2$
  $| | w | | 22 = \sum j = 1 n x w 2 j = w T w$ $||w||^2_2 = \sum_{j=1}^{n_x}w_j^2 = w^Tw$
- $L_1$ 正则
  $J (w, b) = 1 m \sum i = 1 m L (y^(i) - y (i)) + λ m | | w | | 1$ $J(w,b) = \frac{1}{m} \sum_{i=1}^{m} {\cal L}(\hat{y}^{(i)} - y^{(i)}) + \frac{\lambda}{m}||w||_1$
- ||w||1=∑j=1nx|w|j
  
  Neural network regularization
  1. Frobenius正则(类似 $L_2$ 正则)
    $J (w [1], b [1], \dots, w [l], b [l]) = 1 m \sum i = 1 m L (y^(i), y (i)) + 1 2 m \sum l = 1 L | | w [l] | | 2 F$ $J(w^{[1]},b^{[1]}, \cdots , w^{[l]},b^{[l]}) = \frac{1}{m} \sum_{i =1}^m {\cal L}(\hat{y}^{(i)}, y^{(i)}) + \frac{1}{2m} \sum_{l=1}^L ||w^{[l]}||_F^2$
    $| | w [l] | | 2 F = \sum i = 1 n [l] \sum j = 1 n [l - 1] (w [l] i j) 2$ $||w^{[l]}||_F^2 = \sum_{i = 1}^{n^{[l]}} \sum_{j = 1}^{n^{[l-1]}}(w^{[l]}_{ij})^2$
  相较于无正则化的反向传播，正则化的反向传播在更新 $W$ 时，会对其进行权重衰减（weight decay），并下降。
  
  $d w^{[l]} = (f r o m b a c k p r o p a g a t i o n) + \frac{λ}{m} w^{[l]}$
  
  w[l]:=w[l]−αdw[l]=w[l]−αλmw[l]−α(from backpropagation)=(1−αλm)w[l]−α(from backpropagation)

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。