文章目录
范数
向量范数
如果定义一个向量为:a=[-5,6,8, -10]
向量的1范数即:向量的各个元素的绝对值之和,上述向量a的1范数结果就是:29;
向量的2范数即:向量的每个元素的平方和再开平方根,上述a的2范数结果就是:15;
向量的负无穷范数即:向量的所有元素的绝对值中最小的:上述向量a的负无穷范数结果就是:5;
向量的正无穷范数即:向量的所有元素的绝对值中最大的:上述向量a的负无穷范数结果就是:10;
一、L0 范数
L0范数是指向量中非0的元素的个数。
如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。这太直观了,太露骨了吧,换句话说,让参数W是稀疏的。
1.1 稀疏化的好处是是什么?
1)特征选择
实现特征的自动选择,去除无用特征。稀疏化可以去掉这些无用特征,将特征对应的权重置为零。
2)可解释性(interpretability)
例如判断某种病的患病率时,最初有1000个特征,建模后参数经过稀疏化,最终只有5个特征的参数是非零的,那么就可以说影响患病率的主要就是这5个特征。
二、L1 范数
L1范数是指向量中各个元素绝对值之和。
L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优化求解特性而被广泛应用。
既然L0可以实现稀疏,为什么不用L0,而要用L1呢?个人理解一是因为L0范数很难优化求解(NP难问题),二是L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。所以大家才把目光和万千宠爱转于L1范数。
2.1 L2避免过拟合的原理
让L2范数的规则项||W||2 尽可能小,可以使得W每个元素都很小,接近于零,但是与L1不同的是,不会等于0;这样得到的模型抗干扰能力强,参数很小时,即使样本数据x发生很大的变化,模型预测值y的变化也会很有限。
三、L2 范数(稀疏规则算子)
L2范数是指向量各元素的平方和然后求平方根。L2范数可以防止过拟合,提升模型的泛化能力。
在回归里面,有人把有它的回归叫 “岭回归” (Ridge Regression),有人也叫它 “权值衰减weight decay”。
L2 范数可以改善机器学习里过拟合问题。至于过拟合是什么,上面也解释了,就是模型训练时候的