8.5 范数

最新推荐文章于 2025-05-25 20:23:23 发布

原创最新推荐文章于 2025-05-25 20:23:23 发布 · 1.2k 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

机器学习专栏收录该内容

57 篇文章

订阅专栏

本文介绍了机器学习中常用的几种范数，包括L1、L2、L∞及Frobenius范数，解释了它们如何衡量向量大小，并探讨了不同范数的应用场景。特别是对于区分零和非零元素的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

　　在机器学习中，我们经常使用被称为范数（norm）的函数衡量向量大小。形式上， $L^p$ 范数的定义如下：

| | x | | p = (\sum i | x i | p) 1 p

$||x||_p=(\sum_i|x_i|^p)^{\frac{1}{p}}$
其中

p∈R $p\in \mathbb R$ ，

p≥1 $p \ge 1$ 。
　　范数（包括

Lp $L^p$ 范数）是将向量映射到非负值的函数。直观上说，向量

x $x$ 的范数衡量从原点到点

x $x$ 的距离。更严格地说，范数是满足下列性质的任意函数：

f (x) = 0 \Rightarrow x = 0 f (x + y) \geq f (x) + f (y) （ 三 角 不 等 式 ） \forall α \in R, f (α x) = | α | f (x)

$\begin{align} &f(x)=0 \Rightarrow x=0\\ &f(x+y) \ge f(x)+f(y)（三角不等式）\\ &\forall \alpha \in \mathbb R,f(\alpha x)=|\alpha|f(x) \end{align}$
　　当p=2时，

L2 $L^2$ 范数被称为欧几里得范数(Euclidean norm)。它表示从原点出发到向量

x $x$ 确定的点的欧几里得距离。

L2 $L^2$ 范数在机器学习中出现地十分频繁，经常简化为

||x|| $||x||$ ，略去下标2。平方

L2 $L^2$ 范数也经常用来衡量向量的大小，可以简单地通过点积

XTX $X^\mathrm{T}X$ 计算。
　　平方

L2 $L^2$ 范数在数学和计算上都比

L2 $L^2$ 范数本身更方便。例如，平方

L2 $L^2$ 范数对

x $x$ 中每个元素的导数只取决于对应的元素，而

L2 $L^2$ 范数对每个元素的导数却和整个向量相关。但是在很多情况下，平方

L2 $L^2$ 范数也可能不受欢迎，因为它在原点附近增长得十分缓慢。在某些机器学习应用中，区分恰好是零的元素和非零但值很小的元素是很重要的。在这些情况下，我们转而使用在各个位置斜率相同，同时保持简单的数学形式的函数：

L1 $L^1$ 范数。

L1 $L^1$ 范数可以简化如下：

| | x | | 1 = \sum i | x i |

$||x||_1=\sum_i|x_i|$
当机器学习问题中零和非零元素之间的差异非常重要时，通常会使用

L1 $L^1$ 范数。每当

x $x$ 中某个元素从

0 $0$ 增加到

ϵ $\epsilon$ ，对应的

L1 $L^1$ 范数也会增加

ϵ $\epsilon$ 。
　　有时候我们会统计向量中非零元素的个数来衡量向量的大小。有些书籍将这种函数称为“

L0 $L^0$ 范数”，但是这个术语在数学意义上是不对的。向量的非零元素的数目不是范数，因为对向量缩放

α $\alpha$ 倍不会改变该向量非零元素的数目。因此，

L1 $L^1$ 范数经常作为表示非零元素数目的替代函数。
另外一个经常在机器学习中出现的范数是

L∞ $L^\infty$ 范数，也被称为最大范数(max norm)。这个范数表示向量中具有最大幅值的元素的绝对值：

| | x | | \infty = max i | x i |

$||x||_\infty=\max_i|x_i|$
　　有时候我们可能也希望衡量矩阵的大小。在深度学习中，最常见的做法是使用Frobenius范数(Frobenius norm)，

| | A | | F = \sum i, j A 2 i, j - - - - - - \sqrt

$||A||_F=\sqrt{\sum_{i,j}A^2_{i,j}}$
其类似于向量的

L2 $L^2$ 范数。
　　两个向量的点积(dot product)可以用范数来表示。具体地，

x T y = | | x | | 2 | | y | | 2 c o s θ

$x^\mathrm{T}y=||x||_2||y||_2 cos\theta$
其中

θ $\theta$ 表示

x $x$ 和

y $y$ 之间的夹角。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。