神经网络的优化——L2正则化

最新推荐文章于 2024-12-03 23:47:31 发布

luffytom

最新推荐文章于 2024-12-03 23:47:31 发布

阅读量2k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：神经网络优化正则

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/luffytom/article/details/78314009

本文探讨了神经网络优化中的L2正则化，以防止过拟合并提升模型泛化能力。通过理解正则化的概念，特别是L2正则化如何使权重接近于0，来降低复杂度，从而降低过拟合风险。同时，介绍了L2正则化的实际代码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最近在学习神经网络的相关知识，希望通过写博客记录下学习时的感悟，督促、勉励自己。

正则化

关于神经网络优化的主要方面是避免神经网络的过拟合，提高模型的泛化能力，常用的方法有：L1、L2正则化，dropout、权重的初始化等。其中正则化在深度学习中的线性传播中用的最多，在反向求导的过程中起到惩罚权重的作用。
L2正则化原理其实很简单：

J = J + λ 2 m \sum w w 2

$J = J +\frac{\lambda}{2m} \sum\limits_{w} w^{2}$
其中λ是一个超参数，范围[0,1]，m为输入batch中数据的数量，ω则是我们训练的深井网络中每一层的权重矩阵，这里进行的运算是对每一个权重矩阵进行了矩阵的2-范数运算（即每个元素的平方然后求总和）。
我们对损失函数进行了修改之后，反向传播的求导也会发生改变，对ω求导可得：

d d w (1 2 λ m W 2) = λ m w

$\frac{d}{dw} ( \frac{1}{2}\frac{\lambda}{m} W^2) = \frac{\lambda}{m}w^{}$
然后对对应层的ω进行更新：

w = w - d J d w (l e a r n i n g_r a t e) - λ m W (l e a r

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。