范数 稀疏性 算法时间、空间复杂度

本文介绍了范数的概念,包括L0、L1和L2范数,以及它们在稀疏性和避免过拟合中的作用。L0范数用于实现特征选择,L1范数因其优化特性被广泛应用,而L2范数能防止过拟合。此外,还讨论了权重衰减和学习率衰减对模型训练的影响,以及时间复杂度和空间复杂度在算法设计中的重要性。

范数

  向量范数

  如果定义一个向量为:a=[-5,6,8, -10]

  向量的1范数即:向量的各个元素的绝对值之和,上述向量a的1范数结果就是:29;

  向量的2范数即:向量的每个元素的平方和再开平方根,上述a的2范数结果就是:15;

  向量的负无穷范数即:向量的所有元素的绝对值中最小的:上述向量a的负无穷范数结果就是:5;
  向量的正无穷范数即:向量的所有元素的绝对值中最大的:上述向量a的负无穷范数结果就是:10;

一、L0 范数

  L0范数是指向量中非0的元素的个数。
  如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。这太直观了,太露骨了吧,换句话说,让参数W是稀疏的。

1.1 稀疏化的好处是是什么?

1)特征选择

​  实现特征的自动选择,去除无用特征。稀疏化可以去掉这些无用特征,将特征对应的权重置为零。

2)可解释性(interpretability)​

  例如判断某种病的患病率时,最初有1000个特征,建模后参数经过稀疏化,最终只有5个特征的参数是非零的,那么就可以说影响患病率的主要就是这5个特征。

二、L1 范数

  L1范数是指向量中各个元素绝对值之和。
  L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优化求解特性而被广泛应用。
  既然L0可以实现稀疏,为什么不用L0,而要用L1呢?个人理解一是因为L0范数很难优化求解(NP难问题),二是L1范数是L0范数的最优凸近似,而且它比L0范数要容易优化求解。所以大家才把目光和万千宠爱转于L1范数。

2.1 L2避免过拟合的原理

  让L2范数的规则项||W||2 尽可能小,可以使得W每个元素都很小,接近于零,但是与L1不同的是,不会等于0;这样得到的模型抗干扰能力强,参数很小时,即使样本数据x发生很大的变化,模型预测值y的变化也会很有限。

三、L2 范数(稀疏规则算子)

  L2范数是指向量各元素的平方和然后求平方根。L2范数可以防止过拟合,提升模型的泛化能力。

  在回归里面,有人把有它的回归叫 “岭回归” (Ridge Regression),有人也叫它 “权值衰减weight decay”
  L2 范数可以改善机器学习里过拟合问题。至于过拟合是什么,上面也解释了,就是模型训练时候的

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值