正则化L1，L2

最新推荐文章于 2026-01-08 23:29:03 发布

原创最新推荐文章于 2026-01-08 23:29:03 发布 · 707 阅读

CC 4.0 BY-SA版权

文章标签：

20 篇文章

订阅专栏

一、正则化的本质：“给模型加约束，避免过拟合”

在机器学习中，模型过拟合的本质是参数过于复杂（比如权重w的值过大或过于 “极端”），导致模型 “记住” 了训练数据的噪声。

正则化的核心是在损失函数中加入 “惩罚项”，限制参数的复杂度，从而平衡 “拟合能力” 和 “泛化能力”。

二、L2 正则化（权重衰减，Ridge Regression）

在损失函数中加入参数的平方和，

形式如下：

L2 正则化会惩罚大的权重值，迫使权重向 0 靠近（但不会完全为 0）。比如线性回归中，L2 正则化会让模型的 “曲线 / 直线” 更 “平滑”，避免因个别样本的噪声而剧烈波动。

举个例子：假设模型是预测房价，特征包括 “面积”“卧室数”“距离地铁站的距离” 等。

L2 正则化会让每个特征的权重都比较小，模型不会过度依赖某一个特征（比如不会因为 “卧室数” 的微小变化就大幅改变房价预测）。

从优化理论看，L2 正则化相当于给参数空间加了一个“球面约束”（因为是球面）。在这种约束下，损失函数的最优解会更 “稳定”—— 即使训练数据有小的扰动，参数的变化也不会太大，从而提升泛化能力。

三、L1 正则化（Lasso Regression）

在损失函数中加入参数的绝对值和，

形式如下：

（注意：L1 的正则项系数通常是λ/m，和 L2 的λ/2m形式略有不同，是为了优化时的数学便利）

L1 正则化的独特之处是会把很多不重要的特征的权重压缩到 0。

比如还是预测房价的例子，L1 正则化可能会直接让 “距离地铁站的距离” 这个特征的权重为 0，模型不再考虑它 —— 相当于自动完成了 “特征选择”，只保留最关键的特征。

从优化理论看，L1 正则化相当于给参数空间加了一个“立方体约束”（因为是立方体）。立方体的 “角点”（即某些wj=0的点）更容易成为最优解，这就是 L1 能产生 “稀疏解”（很多权重为 0）的原因。

四、L1 vs L2：核心区别对比