深度学习中的正则化策略
在机器学习领域,使算法不仅在训练数据上表现良好,而且在新输入数据上也能有出色表现,是一个核心问题。为了实现这一目标,人们采用了多种策略,这些策略统称为正则化。正则化旨在减少测试误差,有时可能会以增加训练误差为代价。以下将详细介绍深度学习中常用的正则化策略。
1. 参数范数惩罚
许多正则化方法通过在目标函数 $J$ 中添加参数范数惩罚 $\Omega(\theta)$ 来限制模型的容量,正则化后的目标函数 $\tilde{J}$ 定义为:
$\tilde{J}(\theta; X, y) = J(\theta; X, y) + \alpha\Omega(\theta)$
其中,$\alpha \in [0, \infty)$ 是一个超参数,用于权衡范数惩罚项 $\Omega$ 相对于标准目标函数 $J$ 的贡献。当 $\alpha = 0$ 时,不进行正则化;$\alpha$ 值越大,正则化程度越强。
1.1 L2 参数正则化
L2 参数正则化,也称为权重衰减,是最常见的参数范数惩罚形式之一。它通过在目标函数中添加正则化项 $\Omega(\theta) = \frac{1}{2}|w|_2^2$,使权重更接近原点。在一些学术领域,L2 正则化也被称为岭回归或 Tikhonov 正则化。
对于一个简单的线性模型,假设没有偏置参数($\theta = w$),正则化后的目标函数为:
$\tilde{J}(w; X, y) = \frac{\alpha}{2}w^Tw + J(w; X, y)$
对应的参数梯度为:
$\nabla_w\tilde{J}(w; X, y)
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



