12、构建优质训练数据集——数据预处理

L1/L2正则化与特征选择

构建优质训练数据集——数据预处理

1. L1和L2正则化对模型复杂度的惩罚

在机器学习中,为了降低模型的复杂度,避免过拟合,常使用正则化方法。常见的有L1和L2正则化。

  • L2正则化 :通过对较大的单个权重进行惩罚来降低模型复杂度。权重向量 $w$ 的L2范数平方定义为:
    $L2: |w| 2^2 = \sum {j=1}^{m} w_j^2$

  • L1正则化 :另一种降低模型复杂度的方法。它将权重的平方替换为权重绝对值的和,定义为:
    $L1: |w| 1 = \sum {j=1}^{m} |w_j|$

与L2正则化不同,L1正则化通常会产生稀疏的特征向量,即大部分特征权重为零。当处理高维数据集且存在许多不相关特征时,这种稀疏性很有用,尤其在不相关维度多于训练样本的情况下。因此,L1正则化可被视为一种特征选择技术。

2. L2正则化的几何解释

L2正则化会在代价函数中添加一个惩罚项,使得权重值相较于未正则化的模型更加温和。

我们可以通过绘制二维权重系数 $w_1$ 和 $w_2$ 的凸代价函数轮廓来理解。以Adaline使用的均方误差(SSE)代价函数为例,它是球形的,比逻辑回归的代价函数更容易绘制。我们的目标是找到使训练数据代价函数最小的权重系数组合。

正则化可以看作是在代价函数中添加惩罚项,鼓励较小的权重,即惩罚较大的权重。通过正则化参数 $\lambda$ 增加正则化强度,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值