构建优质训练数据集——数据预处理
1. L1和L2正则化对模型复杂度的惩罚
在机器学习中,为了降低模型的复杂度,避免过拟合,常使用正则化方法。常见的有L1和L2正则化。
-
L2正则化 :通过对较大的单个权重进行惩罚来降低模型复杂度。权重向量 $w$ 的L2范数平方定义为:
$L2: |w| 2^2 = \sum {j=1}^{m} w_j^2$ -
L1正则化 :另一种降低模型复杂度的方法。它将权重的平方替换为权重绝对值的和,定义为:
$L1: |w| 1 = \sum {j=1}^{m} |w_j|$
与L2正则化不同,L1正则化通常会产生稀疏的特征向量,即大部分特征权重为零。当处理高维数据集且存在许多不相关特征时,这种稀疏性很有用,尤其在不相关维度多于训练样本的情况下。因此,L1正则化可被视为一种特征选择技术。
2. L2正则化的几何解释
L2正则化会在代价函数中添加一个惩罚项,使得权重值相较于未正则化的模型更加温和。
我们可以通过绘制二维权重系数 $w_1$ 和 $w_2$ 的凸代价函数轮廓来理解。以Adaline使用的均方误差(SSE)代价函数为例,它是球形的,比逻辑回归的代价函数更容易绘制。我们的目标是找到使训练数据代价函数最小的权重系数组合。
正则化可以看作是在代价函数中添加惩罚项,鼓励较小的权重,即惩罚较大的权重。通过正则化参数 $\lambda$ 增加正则化强度,
L1/L2正则化与特征选择
超级会员免费看
订阅专栏 解锁全文
2971

被折叠的 条评论
为什么被折叠?



