L0/L1/L2范数的联系与区别

最新推荐文章于 2024-03-25 03:55:57 发布

weixin_30649641

最新推荐文章于 2024-03-25 03:55:57 发布

阅读量222

点赞数

CC 4.0 BY-SA版权

文章标签：人工智能

原文链接：http://www.cnblogs.com/little-YTMM/p/5879093.html

本文详细解释了L0、L1和L2范数的概念及其在机器学习中的应用，包括它们如何用于特征选择和稀疏编码。同时对比了L1范数和L2范数的区别，并从贝叶斯先验的角度进行了阐述。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

L0/L1/L2范数的联系与区别

标签（空格分隔）：机器学习

最近快被各大公司的笔试题淹没了，其中有一道题是从贝叶斯先验，优化等各个方面比较L0、L1、L2范数的联系与区别。

L0范数

L0范数表示向量中非零元素的个数：
\(||x||_{0} = \#(i)\ with\ \ x_{i} \neq 0\)

也就是如果我们使用L0范数，即希望w的大部分元素都是0. （w是稀疏的）所以可以用于ML中做稀疏编码，特征选择。通过最小化L0范数，来寻找最少最优的稀疏特征项。但不幸的是，L0范数的最优化问题是一个NP hard问题，而且理论上有证明，L1范数是L0范数的最优凸近似，因此通常使用L1范数来代替。

L1范数 -- (Lasso Regression)

L1范数表示向量中每个元素绝对值的和：
\(||x||_{1} = \sum_{i=1}^{n}|x_{i}|\)

L1范数的解通常是稀疏性的，倾向于选择数目较少的一些非常大的值或者数目较多的insignificant的小值。

L2范数 -- (Ridge Regression)

L2范数即欧氏距离：
\(||x||_{2} = \sqrt{\sum_{i=1}^{n}x_{i}^{2}}\)

L2范数越小，可以使得w的每个元素都很小，接近于0，但L1范数不同的是他不会让它等于0而是接近于0.

L1范数与L2范数的比较：
此处输入图片的描述

此处输入图片的描述
但由于L1范数并没有平滑的函数表示，起初L1最优化问题解决起来非常困难，但随着计算机技术的到来，利用很多凸优化算法使得L1最优化成为可能。

贝叶斯先验

从贝叶斯先验的角度看，加入正则项相当于加入了一种先验。即当训练一个模型时，仅依靠当前的训练数据集是不够的，为了实现更好的泛化能力，往往需要加入先验项。

L1范数相当于加入了一个Laplacean先验；
L2范数相当于加入了一个Gaussian先验。
如下图所示：

【Reference】
1. http://blog.youkuaiyun.com/zouxy09/article/details/24971995
2. http://blog.sciencenet.cn/blog-253188-968555.html
3. http://t.hengwei.me/post/%E6%B5%85%E8%B0%88l0l1l2%E8%8C%83%E6%95%B0%E5%8F%8A%E5%85%B6%E5%BA%94%E7%94%A8.html

转载于:https://www.cnblogs.com/little-YTMM/p/5879093.html

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。