L1与L2范数
L1范数:
- L1范数指向量中各个元素绝对值之和。
- ∥ω∥1=∑i∣xi∣\left \| \omega \right \|_{1}=\sum_{i}\left | x_{i} \right |∥ω∥1=i∑∣xi∣
- 也称叫 “稀疏规则算子” (Lasso Regularization)。为什么能稀疏呢?关键原因在于它能实现特征的自动选择。一般来说,训练集中的某些特征和输出y,之间并没有多大关系。在训练时引入这些特征,当然能获得更小的训练误差,但其泛化能力比较差,即造成过拟合。
- L1范数的引入就是为了实现特征自动选择,它会将没有信息的特征对应的权重置为0.
L2范数:
- L1范数指向量备元素的平方和然后再求平方根。
∥ω∥2=∑i∣xi∣2\left \| \omega \right \|_{2}=\sum_{i}\left | x_{i} \right |^{2}∥ω∥2=i∑∣xi∣2 - 又称 岭回归” (Ridge Regression) ,也有的叫 “权值衰减” (Weight Decay),同样是为了解决过拟合问题,但与L1范数不同的是L2是使得特征对应的权重尽量的小,接近于0(但不会等于0)。而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。为什么呢?这里给出一个说法:参数越小,表示模型不会过分地学习训练集的某个特征,也即更不容易造成过拟合。
对比
- 相同点
- 均可用于避免过拟合,降低模型复杂度
- 不同点
- L1可让一部分特征的系数缩小至0,从而间接实现特征的选择,因此L1更适合特征间有关联的情况。L2可让所有特征的系数都缩小,但是不会变成零,会使得优化求解稳定快速,因此L2更适合特征间没有关联的情况。
- L1服从拉普拉斯分布,L2服从高斯分布
惩罚项是减小过拟合的推导

