范数稀疏性算法时间、空间复杂度

最新推荐文章于 2022-11-18 11:26:03 发布

小麦粒

最新推荐文章于 2022-11-18 11:26:03 发布

阅读量4.1k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：基本概念

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/u010986753/article/details/97373789

本文介绍了范数的概念，包括L0、L1和L2范数，以及它们在稀疏性和避免过拟合中的作用。L0范数用于实现特征选择，L1范数因其优化特性被广泛应用，而L2范数能防止过拟合。此外，还讨论了权重衰减和学习率衰减对模型训练的影响，以及时间复杂度和空间复杂度在算法设计中的重要性。

文章目录

范数
一、L0 范数
- 1.1 稀疏化的好处是是什么？
二、L1 范数
- 2.1 L2避免过拟合的原理
三、L2 范数（稀疏规则算子）
- 3.1 权重衰减（weight decay）
- 3.2 学习率衰减（learning rate decay）
四、时间复杂度与空间复杂度
- 4.1 时间复杂度
- 4.2 空间复杂度
有趣的事，Python永远不会缺席

范数

向量范数

如果定义一个向量为：a=[-5，6，8, -10]

向量的1范数即：向量的各个元素的绝对值之和，上述向量a的1范数结果就是：29；

向量的2范数即：向量的每个元素的平方和再开平方根，上述a的2范数结果就是：15；

向量的负无穷范数即：向量的所有元素的绝对值中最小的：上述向量a的负无穷范数结果就是：5；
向量的正无穷范数即：向量的所有元素的绝对值中最大的：上述向量a的负无穷范数结果就是：10；

一、L0 范数

L0范数是指向量中非0的元素的个数。
如果我们用L0范数来规则化一个参数矩阵W的话，就是希望W的大部分元素都是0。这太直观了，太露骨了吧，换句话说，让参数W是稀疏的。

1.1 稀疏化的好处是是什么？

1）特征选择

实现特征的自动选择，去除无用特征。稀疏化可以去掉这些无用特征，将特征对应的权重置为零。

2）可解释性（interpretability）

例如判断某种病的患病率时，最初有1000个特征，建模后参数经过稀疏化，最终只有5个特征的参数是非零的，那么就可以说影响患病率的主要就是这5个特征。

二、L1 范数

L1范数是指向量中各个元素绝对值之和。
L1范数和L0范数可以实现稀疏，L1因具有比L0更好的优化求解特性而被广泛应用。
既然L0可以实现稀疏，为什么不用L0，而要用L1呢？个人理解一是因为L0范数很难优化求解（NP难问题），二是L1范数是L0范数的最优凸近似，而且它比L0范数要容易优化求解。所以大家才把目光和万千宠爱转于L1范数。

2.1 L2避免过拟合的原理

让L2范数的规则项||W||2 尽可能小，可以使得W每个元素都很小，接近于零，但是与L1不同的是，不会等于0；这样得到的模型抗干扰能力强，参数很小时，即使样本数据x发生很大的变化，模型预测值y的变化也会很有限。

三、L2 范数（稀疏规则算子）

L2范数是指向量各元素的平方和然后求平方根。L2范数可以防止过拟合，提升模型的泛化能力。

在回归里面，有人把有它的回归叫 “岭回归” （Ridge Regression），有人也叫它 “权值衰减weight decay”。
L2 范数可以改善机器学习里过拟合问题。至于过拟合是什么，上面也解释了，就是模型训练时候的

最低0.47元/天解锁文章

新学期VIP享超值加赠

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。