机器学习中的需要知道的几种范数

本文介绍了机器学习中常用的范数,包括Lp范数(L0, L1, L2, L∞)和矩阵范数(1-范数, 2-范数, ∞-范数, F-范数),阐述了它们的定义、特性以及在模型正则化中的作用,特别是L1范数的稀疏性优势。" 111483510,10297141,kali Linux下Volatility取证分析框架的安装与使用教程,"['内存取证', '安全分析', 'kali工具', 'Volatility框架', 'Windows取证']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

范数

在机器学习中,经常使用称为范数的函数来衡量大小。那么范数是什么呢?

范数实质上就是一种强化了的距离概念,它在定义上比距离多了一条数乘运算。
范数(包括L-p)范数是将向量映射到非负值的函数,满足下列定义:

  1. $f(x)=0 ==> x=0 $
  2. f(x+y)≤f(x)+f(y)f(x+y) \leq f(x)+f(y)f(x+y)f(x)+f(y)
  3. ∀α∈R,f(αx)=∣α∣f(x)\forall \alpha \in R,f(\alpha x)=|\alpha| f(x)αR,f(αx)=αf(x)

LpL^pLp范数

LpL^pLp范数定义如下:
∣∣x∣∣p=(∑i∣xi∣p)1/p||x||_p = {(\sum_i|x_i|^p)}^{1/p}xp=(ixip)1/p

根据p的变化,范数也有着不同的变化,一个经典的有关p范数的变化图如下:
在这里插入图片描述
上图表示了p从无穷到0变化时,三维空间中到原点的距离(范数)为1的点构成的图形的变化情况。以常见的L-2范数(p=2)为例,此时的范数也即欧氏距离,空间中到原点的欧氏距离为1的点构成了一个球面。

L0和L1L^0和L^1L0L1范数

有时我们会统计向量中非零元素的个数来衡量向量的大小。有些人将这称为L0L^0L0范数。严格意义上,向量的非零元素数目不是范数。因此,L1L^1L1范数经常作为表示非零元素数目的替代函数。
L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。L1可实现稀疏,参数稀疏的好处为:

  • 可解释性强
  • 特征选择

L2L^2L2范数

L2范数称为欧几里得范数,表示从原点出发到向量x确定的点的欧几里得距离。平方L2范数也经常用来衡量向量的大小,可以简单地通过xTxx^TxxTx计算。平方L2范数在数学上和计算上逗比L2范数本身方便。平方L2范数的对x中每个元素的导数只取决于对应的元素,而L2范数对每个元素的导数和整个向量相关。但是平方L2范数在原点附近增长十分缓慢。某些情况下,并不适用。

L∞L^\inftyL范数

当p=∞\infty时,也就是L∞L^{\infty}L范数,它主要被用来度量向量元素的最大值,与L0一样,通常情况下表示为 :
∣∣x∣∣∞=max⁡i∣x∣i||x||_\infty = \max_i|x|_ix=imaxxi

矩阵范数

1-范数

∣∣A∣∣1=max⁡j∑im∣ai,j∣||A||_1=\max_j{\sum_i}^m|a_{i,j}|A1=jmaximai,j

列和范数,即所有矩阵列向量绝对值之和的最大值。

2-范数

∣∣A∣∣2=λ1||A||_2=\sqrt{\lambda_1}A2=λ1
λ\lambdaλATAA^TAATA的最大特征值

∞−范数\infty - 范数

∣∣A∣∣∞=max⁡i∑j=1N∣ai,j∣||A||_{\infty}=\max_i{\sum_{j=1}}^N|a_{i,j}|A=imaxj=1Nai,j

F-范数

∣∣A∣∣F=(∑i∑j∣ai,j∣2)1/2||A||_F= (\sum_i\sum_j|a_{i,j}|^2)^{1/2}AF=(ijai,j2)1/2

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值