深度学习中的正则化方法:ℓ1与ℓ2正则化解析
1. 复杂度概念
复杂度是一个源于信息论的概念,但网络复杂度的定义在理论上十分复杂。实际上,网络复杂度不仅取决于网络结构,还与训练轮数、优化算法等因素相关。例如,非零权重的数量会随着训练轮数和优化算法的不同而显著变化。因此,网络复杂度只能在直观层面使用,严格定义它是非常困难的。
2. ℓp范数
在研究ℓ1和ℓ2正则化之前,需要先了解ℓp范数的概念。对于一个向量 $\mathbf{x}$,其ℓp范数定义为:
[ |\mathbf{x}| p = \left( \sum {i \in \mathbb{R}} |x_i|^p \right)^{\frac{1}{p}} ]
这里的求和是对向量 $\mathbf{x}$ 的所有分量进行的。接下来,我们重点关注最具代表性的ℓ2范数。
3. ℓ2正则化
ℓ2正则化是一种常见的正则化方法,其核心思想是在损失函数中添加一个正则化项,以降低网络对复杂数据集的适应能力,从而防止过拟合。
3.1 ℓ2正则化的理论
在普通回归中,损失函数通常是均方误差(MSE):
[ J(\mathbf{w}) = \frac{1}{m} \sum_{i=1}^{m} (y_i - \hat{y}_i)^2 ]
其中,$y_i$ 是实际观测的目标变量,$\hat{y}_i$ 是预测值,$\mathbf{w}$ 是网络的权重向量(包括偏置),$m$ 是观测数据的数量。
引入ℓ2正则化后,新的损失函数定义为:
[ \tilde{J}(\mathbf
超级会员免费看
订阅专栏 解锁全文
6

被折叠的 条评论
为什么被折叠?



