12、构建优质训练数据集——数据预处理

L1/L2正则化与特征选择

vim8coder

于 2025-10-03 11:14:22 发布

阅读量6

点赞数

CC 4.0 BY-SA版权

分类专栏： Python机器学习实战精讲文章标签： L1正则化 L2正则化特征选择

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/vim8coder/article/details/154891021

Python机器学习实战精讲专栏收录该内容

56 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

构建优质训练数据集——数据预处理

1. L1和L2正则化对模型复杂度的惩罚

在机器学习中，为了降低模型的复杂度，避免过拟合，常使用正则化方法。常见的有L1和L2正则化。

L2正则化 ：通过对较大的单个权重进行惩罚来降低模型复杂度。权重向量 $w$ 的L2范数平方定义为：
$L2: |w| 2^2 = \sum {j=1}^{m} w_j^2$
L1正则化 ：另一种降低模型复杂度的方法。它将权重的平方替换为权重绝对值的和，定义为：
$L1: |w| 1 = \sum {j=1}^{m} |w_j|$

与L2正则化不同，L1正则化通常会产生稀疏的特征向量，即大部分特征权重为零。当处理高维数据集且存在许多不相关特征时，这种稀疏性很有用，尤其在不相关维度多于训练样本的情况下。因此，L1正则化可被视为一种特征选择技术。

2. L2正则化的几何解释

L2正则化会在代价函数中添加一个惩罚项，使得权重值相较于未正则化的模型更加温和。

我们可以通过绘制二维权重系数 $w_1$ 和 $w_2$ 的凸代价函数轮廓来理解。以Adaline使用的均方误差（SSE）代价函数为例，它是球形的，比逻辑回归的代价函数更容易绘制。我们的目标是找到使训练数据代价函数最小的权重系数组合。

正则化可以看作是在代价函数中添加惩罚项，鼓励较小的权重，即惩罚较大的权重。通过正则化参数 $\lambda$ 增加正则化强度，

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。