15、深度学习中的正则化方法：ℓ1与ℓ2正则化解析

最新推荐文章于 2025-11-25 14:31:30 发布

code8

最新推荐文章于 2025-11-25 14:31:30 发布

阅读量20

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习实战指南文章标签：深度学习正则化 ℓ1正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/code8/article/details/154557223

深度学习实战指南专栏收录该内容

27 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度学习中的正则化方法：ℓ1与ℓ2正则化解析

1. 复杂度概念

复杂度是一个源于信息论的概念，但网络复杂度的定义在理论上十分复杂。实际上，网络复杂度不仅取决于网络结构，还与训练轮数、优化算法等因素相关。例如，非零权重的数量会随着训练轮数和优化算法的不同而显著变化。因此，网络复杂度只能在直观层面使用，严格定义它是非常困难的。

2. ℓp范数

在研究ℓ1和ℓ2正则化之前，需要先了解ℓp范数的概念。对于一个向量 $\mathbf{x}$，其ℓp范数定义为：
[ |\mathbf{x}| p = \left( \sum {i \in \mathbb{R}} |x_i|^p \right)^{\frac{1}{p}} ]
这里的求和是对向量 $\mathbf{x}$ 的所有分量进行的。接下来，我们重点关注最具代表性的ℓ2范数。

3. ℓ2正则化

ℓ2正则化是一种常见的正则化方法，其核心思想是在损失函数中添加一个正则化项，以降低网络对复杂数据集的适应能力，从而防止过拟合。

3.1 ℓ2正则化的理论

在普通回归中，损失函数通常是均方误差（MSE）：
[ J(\mathbf{w}) = \frac{1}{m} \sum_{i=1}^{m} (y_i - \hat{y}_i)^2 ]
其中，$y_i$ 是实际观测的目标变量，$\hat{y}_i$ 是预测值，$\mathbf{w}$ 是网络的权重向量（包括偏置），$m$ 是观测数据的数量。

引入ℓ2正则化后，新的损失函数定义为：
[ \tilde{J}(\mathbf

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。