15、正则化技术：提升模型泛化能力的综合策略

最新推荐文章于 2025-10-26 00:34:46 发布

algae

最新推荐文章于 2025-10-26 00:34:46 发布

阅读量31

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习的奥秘与未来文章标签：正则化技术显式正则化隐式正则化

本文链接：https://blog.youkuaiyun.com/algae/article/details/151028151

深度学习的奥秘与未来专栏收录该内容

50 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

正则化技术：提升模型泛化能力的综合策略

在机器学习中，模型在训练数据和测试数据上的表现往往存在显著差距。这种差距可能源于模型对训练数据的过度拟合，即模型捕捉到了训练数据中的统计特性，但这些特性并不能代表输入到输出的真实映射；或者模型在没有训练样本的区域缺乏约束，导致预测效果不佳。为了减少这种泛化差距，我们可以采用正则化技术。

1. 显式正则化

假设我们使用输入/输出对的训练集 ${x_i, y_i}$ 来拟合一个带有参数 $\phi$ 的模型 $f[x, \phi]$。我们的目标是找到损失函数 $L[\phi]$ 的最小值：
$\hat{\phi} = \arg\min_{\phi} \left[ L[\phi] \right] = \arg\min_{\phi} \left[ \sum_{i=1}^{I} \ell_i[x_i, y_i] \right]$
其中，$\ell_i[x_i, y_i]$ 衡量了网络预测 $f[x_i, \phi]$ 与每个训练对的输出目标 $y_i$ 之间的不匹配程度。为了使这个最小化过程倾向于某些特定的解，我们可以添加一个额外的项：
$\hat{\phi} = \arg\min_{\phi} \left[ \sum_{i=1}^{I} \ell_i[x_i, y_i] + \lambda \cdot g[\phi] \right]$
这里，$g[\phi]$ 是一个函数，当参数不太理想时返回一个较大的标量值。$\lambda$ 是一个正标量，用于控制原始损失函数和正则化项的相对贡献。正则化损失函数的最小值通常与原始损失函数的最小值不同，因此训练过程会收敛到不同的参数值。