《机器学习中的“减肥”秘籍：L2 正则化》

原创已于 2025-04-30 09:53:04 修改 · 988 阅读

16 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #深度学习

于 2025-04-30 09:48:49 首次发布

机器学习专栏收录该内容

50 篇文章

订阅专栏

《机器学习中的“减肥”秘籍：L2 正则化》

摘要

在机器学习的世界里，模型过拟合就像一个人过度依赖记忆而缺乏理解能力一样，虽然在训练数据上表现完美，但在面对新数据时却变得手足无措。L2 正则化是一种强大的工具，可以帮助我们解决这一问题。它通过限制模型的复杂性，让模型在训练过程中学会“泛化”，从而更好地应对未知数据。本文将深入讲解 L2 正则化的原理、作用以及如何选择合适的正则化率，同时结合实际例子，帮助读者更好地理解和应用这一技术。

机器学习中的“减肥”秘籍：L2 正则化

在机器学习的世界里，我们常常会遇到一个棘手的问题：过拟合。想象一下，你正在训练一个模型，让它学习如何识别猫和狗的图片。如果你给模型的训练数据全是猫，那么它可能会变得非常擅长识别猫，但一旦遇到狗的图片，它就会完全懵掉。这种现象在机器学习中被称为过拟合，即模型对训练数据学习得过于“完美”，以至于无法适应新的、未见过的数据。

为了解决这个问题，我们需要一种方法来让模型学会“泛化”，即在训练过程中不仅关注训练数据，还要学会从更广泛的视角去理解问题。这就是L2 正则化的用武之地。

什么是 L2 正则化？

L2 正则化是一种常用的正则化方法，它的核心思想是通过限制模型的复杂性来防止过拟合。具体来说，L2 正则化会惩罚模型中权重的大小，让权重尽可能地接近零，但又不完全为零。这样做的目的是让模型在训练过程中更加“简洁”，避免过度依赖某些特定的特征。

举个例子，假设我们有一个简单的线性模型，它的权重分别是 $w_1 = 0.2$ ， $w_2 = -0.5$ ， $w_3 = 5.0$ ， $w_4 = -1.2$ ， $w_5 = 0.3$ ， $w_6 = -0.1$ 。按照 L2 正则化的公式，我们需要计算这些权重的平方和：

$\text{正则化} = w_1^2 + w_2^2 + w_3^2 + w_4^2 + w_5^2 + w_6^2$

计算结果为：

$0.04 + 0.25 + 25.0 + 1.44 + 0.09 + 0.01 = 26.83$

从这个结果可以看出，权重 $w_3$ 的平方值占据了绝大部分（约 93%），而其他权重的平方值加起来只占 7% 左右。这说明，如果某个权重的值过大，它会对模型的复杂性产生巨大的影响。L2 正则化的作用就是通过惩罚这些大权重，让模型的整体复杂性降低。

正则化率（Lambda）的重要性

在 L2 正则化中，有一个关键的参数叫做正则化率（用希腊字母 $ \lambda $ 表示）。正则化率决定了正则化对模型训练的影响程度。具体来说，模型训练的目标是：

$\text{最小化}(\text{损失} + \lambda \times \text{复杂性})$

高正则化率：当 $λ\lambda$ 较大时，正则化的影响会增强，模型的复杂性会降低，从而减少过拟合的可能性。此时，模型的权重分布通常会呈现正态分布，平均权重接近零。例如，一个高正则化率的模型权重直方图可能像一个钟形曲线，中心在零附近。
低正则化率：当 $λ\lambda$ 较小时，正则化的影响会减弱，模型的复杂性可能会增加，从而增加过拟合的风险。此时，模型的权重分布可能会比较平坦，没有明显的集中趋势。