L0/L1/L2范数的联系与区别

本文详细解释了L0、L1和L2范数的概念及其在机器学习中的应用,包括它们如何用于特征选择和稀疏编码。同时对比了L1范数和L2范数的区别,并从贝叶斯先验的角度进行了阐述。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

L0/L1/L2范数的联系与区别

标签(空格分隔): 机器学习


最近快被各大公司的笔试题淹没了,其中有一道题是从贝叶斯先验,优化等各个方面比较L0、L1、L2范数的联系与区别。

L0范数

L0范数表示向量中非零元素的个数:
\(||x||_{0} = \#(i)\ with\ \ x_{i} \neq 0\)

也就是如果我们使用L0范数,即希望w的大部分元素都是0. (w是稀疏的)所以可以用于ML中做稀疏编码,特征选择。通过最小化L0范数,来寻找最少最优的稀疏特征项。但不幸的是,L0范数的最优化问题是一个NP hard问题,而且理论上有证明,L1范数是L0范数的最优凸近似,因此通常使用L1范数来代替。

L1范数 -- (Lasso Regression)

L1范数表示向量中每个元素绝对值的和:
\(||x||_{1} = \sum_{i=1}^{n}|x_{i}|\)

L1范数的解通常是稀疏性的,倾向于选择数目较少的一些非常大的值或者数目较多的insignificant的小值。

L2范数 -- (Ridge Regression)

L2范数即欧氏距离:
\(||x||_{2} = \sqrt{\sum_{i=1}^{n}x_{i}^{2}}\)

L2范数越小,可以使得w的每个元素都很小,接近于0,但L1范数不同的是他不会让它等于0而是接近于0.

L1范数与L2范数的比较:
此处输入图片的描述

此处输入图片的描述
但由于L1范数并没有平滑的函数表示,起初L1最优化问题解决起来非常困难,但随着计算机技术的到来,利用很多凸优化算法使得L1最优化成为可能。

贝叶斯先验

从贝叶斯先验的角度看,加入正则项相当于加入了一种先验。即当训练一个模型时,仅依靠当前的训练数据集是不够的,为了实现更好的泛化能力,往往需要加入先验项。

  • L1范数相当于加入了一个Laplacean先验;
  • L2范数相当于加入了一个Gaussian先验。
    如下图所示:
    此处输入图片的描述

【Reference】
1. http://blog.youkuaiyun.com/zouxy09/article/details/24971995
2. http://blog.sciencenet.cn/blog-253188-968555.html
3. http://t.hengwei.me/post/%E6%B5%85%E8%B0%88l0l1l2%E8%8C%83%E6%95%B0%E5%8F%8A%E5%85%B6%E5%BA%94%E7%94%A8.html

转载于:https://www.cnblogs.com/little-YTMM/p/5879093.html

### 不同类型范数的概念 #### L0 范数 L0 范数表示向量中非零元素的数量。对于参数矩阵 W 的 L0 正则化,目的是使 W 中尽可能多的元素变为零,从而实现稀疏性[^1]。 #### L1 范数 针对向量 $\mathbf{x}$, 其 L1 范数定义为 $||\mathbf{x}||_1 = \sum_{i=1}^{n} |x_i|$ 。这意味着所有绝对值之和构成了该范数值[^3]。 #### L2 范数 通常情况下,在单一目标训练过程中会计算权重向量的 L2 值(即权重向量长度)。当面对多个目标时,则需考虑整个权重矩阵下的 L2 计算方法及其含义[^4]。具体来说,L2 范数衡量的是欧几里得距离,也就是各分量平方根总和: $$ ||\mathbf{x}||_2=\sqrt{\sum _{ i }^{ n }{ { x }_{ i }^{ 2 } }} $$ #### 核范数 (Nuclear Norm) 核范数是指矩阵奇异值的累加和。它常用于低秩近似问题中作为替代指标来最小化模型复杂度并防止过拟合现象的发生。 ### 各种范数之间的区别 - **稀疏特性**: L0 和 L1 都能促使解变得稀疏;相比之下,L2 更倾向于均匀分布而非集中于少数几个大系数上。 - **凸优化性质**: 只有 L1 是严格意义上的凸函数,这使得基于它的最优化问题是可解且稳定的。而 L0 并不是真正的范数因为它不满足三角不等式的条件。 - **平滑程度**: L2 提供了一个更光滑的目标表面,有助于梯度下降算法更快收敛到全局最优解附近的位置。 ### 应用场景 - **特征选择/压缩感知领域**, 当需要获取具有较少有效维度的数据集时可以采用 L0 或者 L1 来减少不必要的变量数目; - **机器学习中的正则项**, 加入适当形式的惩罚因子可以帮助控制模型泛化能力以及预防过度拟合情况发生; - **图像处理方面**, 利用这些不同的范数能够有效地去除噪声干扰或是增强边缘细节表现力。 ```python import numpy as np from scipy import linalg def compute_norms(matrix): """Compute various norms of a given matrix.""" l0_norm = np.count_nonzero(matrix) # Computes the number of non-zero elements. l1_norm = np.sum(np.abs(matrix)) # Summation over absolute values. l2_norm = linalg.norm(matrix, 'fro') # Frobenius norm which is equivalent to Euclidean distance for matrices. nuclear_norm = np.sum(linalg.svdvals(matrix)) return {'l0': l0_norm, 'l1': l1_norm, 'l2': l2_norm, 'nuclear': nuclear_norm} # Example usage with random data generation matrix_example = np.random.rand(5, 5) norm_results = compute_norms(matrix_example) print(norm_results) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值