声明:本文范数的部分内容来自火贪三刀的博文,感谢分享,地址如下
原文:https://blog.youkuaiyun.com/shijing_0214/article/details/51757564
1、 平均值,也叫算数平均值。 比如1,2,3,4这几个样本的平均值就是1+2+3+4再除以4。
2、 方差,每个样本值与全体样本值的平均值之差的平方值的平均数,以公式表示为:
其中, X表示每个样本值,μ表示平均值,N表示样本个数。
3、标准差,又称均方差,再称标准偏差,是方差的算术平方根。以公式表示为:
4、矩阵的乘积:其结果是一个矩阵
先决条件是,A矩阵的行的元素数等于B矩阵的列的元素数。
乘法要诀:A矩阵的第一行的第1个元素乘以B矩阵第一列的第1元素,再加上
A矩阵的第一行的第2个元素乘以B矩阵第一列的第2元素 ,再加上.......
A矩阵的第一行的第n个元素乘以B矩阵第一列的第n元素,得到的值是新矩阵的第一行第1个元素;
其它元素以此类推。
5、向量的点乘:又叫内积,结果是一个标量。
两个向量a = [a1, a2,…, an]和b = [b1, b2,…, bn]的点积定义为:
a·b=a1b1+a2b2+……+anbn。
使用矩阵乘法并把(纵列)向量当作n×1 矩阵,点积还可以写为:
,这里的
指示向量b的转置。
两个向量的 点积(dot product)可以用范数来表示:
其中 θ 表示 x 和 y 之间的夹角。
6、 对角矩阵:对角矩阵(diagonal matrix)只在主对角线上含有非零元素,其他位置都是零。
形式上,矩阵 D 是对角矩阵,当且仅当对于所有的 i j,Di,j = 0。
乘法要诀:用对角阵左乘一个矩阵,就是用对角阵的对角元分别乘这个矩阵的对应各行
用对角阵右乘一个矩阵,就是用对角阵的对角元分别乘这个矩阵的对应各列
对角方阵的逆矩阵存在,当且仅当对角元素都是非零值,在这种情况下:
不是所有的对角矩阵都是方阵。长方形的矩阵也有可能是对角矩阵。非方阵的对角矩阵没有
逆矩阵,但我们仍然可以高效地计算它们的乘法。对于一个长方形对角矩阵 D 而言,乘法 Dx
会涉及到 x 中每个元素的缩放,如果 D 是瘦长型矩阵,那么在缩放后的末尾添加一些零;
如果 D 是胖宽型矩阵,那么在缩放后去掉最后一些元素。
7、单位矩阵:任意向量和单位矩阵相乘,都不会改变。我们将保持 n 维向量不变的单位矩阵记作 。
形式上, ∈
n×n,∀x ∈
n,
x = x。
其结构很简单:所有沿主对角线的元素都是 1,而所有其他位置的元素都是0。
8、单位矩阵的矩阵逆:一个n阶方阵A称为可逆的,或非奇异的,如果存在一个n阶方阵B,使得
则称B是A的一个逆矩阵。A的逆矩阵记作。
9、范数:范数(包括 Lp 范数)是将向量映射到非负值的函数。有时候为了便于理解,我们可以把范数当作距离。
直观上来说,向量 x 的范数衡量从原点到点 x 的距离。从数学上有以下定义:
或者为
更严格地说,范数是满足下列性质的任意函数:
• f(x) = 0 ⇒ x = 0
• f(x + y) ≤ f(x) + f(y) ( 三角不等式(triangle inequality))
• ∀α ∈ R, f(αx) = |α|f(x)
它常常被用来度量某个向量空间(或矩阵)中的每个向量的长度或大小。
当 p = 2 时,L2 范数被称为 欧几里得范数(Euclidean norm)。它表示从原点出发到向量 x 确定的点的欧几里得距离。
L2 范数在机器学习中出现地十分频繁,经常简化表示为 ∥x∥,略去了下标 2。平方 L2 范数也经常用来衡量向量的大小,
可以简单地通过点积 计算。
在数学上,范数包括向量范数和矩阵范数,向量范数表征向量空间中向量的大小,矩阵范数表征矩阵引起变化的大小。
10、L0范数
当P=0时,也就是L0范数,由上面可知,L0范数并不是一个真正的范数,它主要被用来度量向量中非零元素的个数。用上面的L-P定义可以得到的L-0的定义为:
这里就有点问题了,我们知道非零元素的零次方为1,但零的零次方,非零数开零次方都是什么鬼,很不好说明L0的意义,所以在通常情况下,大家都用的是:
来表示向量xx中非零元素的个数。
对于L0范数,其优化问题为:
在实际应用中,由于L0范数本身不容易有一个好的数学表示形式,给出上面问题的形式化表示是一个很难的问题,故被人认为是一个NP难问题。所以在实际情况中,L0的最优问题会被放宽到L1或L2下的最优化。
11、L1范数
L1范数是我们经常见到的一种范数,它的定义如下:
表示向量xx中非零元素的绝对值之和。
L1范数有很多的名字,例如我们熟悉的曼哈顿距离、最小绝对误差等。使用L1范数可以度量两个向量间的差异,如绝对误差和(Sum of Absolute Difference):
对于L1范数,它的优化问题如下:
由于L1范数的天然性质,对L1优化的解是一个稀疏解,因此L1范数也被叫做稀疏规则算子。通过L1可以实现特征的稀疏,去掉一些没有信息的特征,例如在对用户的电影爱好做分类的时候,用户有100个特征,可能只有十几个特征是对分类有用的,大部分特征如身高体重等可能都是无用的,利用L1范数就可以过滤掉。
12、L2范数
L2范数是我们最常见最常用的范数了,我们用的最多的度量距离欧氏距离就是一种L2范数,它的定义如下:
表示向量元素的平方和再开平方。
像L1范数一样,L2也可以度量两个向量间的差异,如平方差和(Sum of Squared Difference):
对于L2范数,它的优化问题如下:
L2范数通常会被用来做优化目标函数的正则化项,防止模型为了迎合训练集而过于复杂造成过拟合的情况,从而提高模型的泛化能力。
13、 范数
也被称为 最大范数(maxnorm)。当P=时,也就是
范数,它主要被用来度量向量元素的最大值。用上面的L-P定义可以得到的
的定义为:
与L0一样,在通常情况下,大家都用的是:
来表示。
14、 Frobenius 范数
在深度学习中,有时候我们可能也希望衡量矩阵的大小,可以使用此范数。其定义为:
其类似于向量的 L2 范数。
15、数学符号s.t.的含义
在优化问题的求解中,如线性规划、非线性规划问题等,经常会遇到数学符号“s.t.”,它的含义如何解释?
“s.t.”,指 subject to,受限制于...。例如:
目标函数:min {x+2}
约束条件:s.t. x={1,2,3}
其题意为,求x+2的最小值以使得x的取值为1、2、3时。
或者理解为,x的取值为1、2、3时,求x+2的最小值。
16、对称矩阵
对称矩阵是转置和自己相等的矩阵,。
当某些不依赖参数顺序的双参数函数生成元素时,对称矩阵经常会出现。例如,如果 A 是一个距离度量矩阵,Ai,j 表示点 i 到点 j 的距离,那么 Ai,j = Aj,i,因为距离函数是对称的。
17、单位向量
单位向量是具有单位范数的向量:。
如果 = 0,那么向量 x 和向量 y 互相 正交(orthogonal)。如果两个向量都有非零范数,那么这两个向量之间的夹角是 90 度。在
n 中,至多有 n 个范数非零向量互相正交。如果这些向量不仅互相正交,并且范数都为 1,那么我们称它们是 标准正交(orthonormal)。
18、正交矩阵
正交矩阵(orthogonal matrix)是指行向量和列向量是分别标准正交的方阵:。
这意味着:
正交矩阵之所以受到关注是因为求逆计算代价小。我们需要注意正交矩阵的定义。反直觉地,正交矩阵的行向量不仅是正交的,还是标准正交的。对于行向量或列向量互相正交但不是标准正交的矩阵没有对应的专有术语。
19、特征向量
方阵 A 的 特征向量(eigenvector)是指与 A 相乘后相当于对该向量进行缩放的非零向量 v,即满足:Av = λv,标量 λ 被称为这个特征向量对应的特征值(eigenvalue)。对于一个矩阵往往有n个特征向量,通常我们只考虑单位特征向量。
20、行列式
行列式,记作 det(A),是一个将方阵 A 映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值可以用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。如果行列式是 0,那么空间至少沿着某一维完全收缩了,使其失去了所有的体积。如果行列式是 1,那么这个转换保持空间体积不变。