常见的一些“Distance“

最新推荐文章于 2021-06-26 11:13:33 发布

原创最新推荐文章于 2021-06-26 11:13:33 发布 · 762 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#协方差 #机器学习 #人工智能 #数据挖掘 #python

机器学习专栏收录该内容

11 篇文章

订阅专栏

机器学习中的"距离"

@(神经网络)

文章目录

机器学习中的"距离"

在现代机器学习方法中，无论是有监督学习还是无监督学习都使用各种“度量”来得到不同样本数据的差异度或者不同样本数据的相似度。良好的“度量”可以显著提高算法的分类或预测的准确率。“度量”主要由两种，分别为距离、相似度和相关系数，距离的研究主体一般是线性空间中点；而相似度研究主体是线性空间中向量；相关系数研究主体主要是分布数据。下面我们对机器学习中的一些距离进行讨论。

$L_p$ 距离

这个 $L_p$ 距离又称 $L_p$ 范数，只是在不同领域的叫法而已，范数是线性代数里面的一种称呼，向量的范数可以简单形象的理解为向量的长度，或者向量到零点的距离，或者相应的两个点之间的距离。p为不同常数的时候 $L_p$ 范数所适用的场景不同。
至于这里为什么讨论的是向量的范数呢，是因为计算机不能处理现实世界的文字、图像信息，我们需要将这些数据转化为张量才能被计算机处理。

向量的范数定义

向量的范数是一个函数 $∣ ∣ x ∣ ∣$ ，满足非负性 $\geq 0$ ，齐次性 $∣ ∣ c x ∣ ∣ = ∣ c ∣ ∣ ∣ x ∣ ∣$ ，三角不等式 $∣ ∣ x + y ∣ ∣ < = ∣ ∣ x ∣ ∣ + ∣ ∣ y ∣ ∣$ 。这里的$ || $是以后经常会遇见的一种函数，一种运算符，一种映射关系。常见的范数有$ L_0, L_1, L_2, L_\infty $等，统一记为$ L_p$范数。

$L_0$ 范数

L0范数： $x||_0$ 表示x向量各个非零元素的个数。这里在引入一个概念，叫做汉明距离：

Hamming distance是指两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2。

那么对于 $∣ ∣ x ∣ ∣$ 的 $L_0$ 范数就可以看成是计算 $∣ ∣ x ∣ ∣$ 到 $\vec0$ 的汉明距离。
也就是如果我们使用 $L_0$ 范数，即希望w的大部分元素都是0. （w是稀疏的）所以可以用于Machine Learning中做稀疏编码，特征选择。通过最小化 $L_0$ 范数，来寻找最少最优的稀疏特征项。但不幸的是， $L_0$ 范数的最优化问题是一个NP hard问题，而且理论上有证明， $L_1$ 范数是 $L_0$ 范数的最优凸近似，因此通常使用 $L_1$ 范数来代替（看这个铺垫）。

$L_1$ 范数

L1范数: $x||_1$ 为x向量各个元素绝对值之和。如果说 $L_0$ 范数可以看作是Hamming Distance，那么 $L_1$ 范数被称作Manhattan Distance 就显得很正统了，想象你在曼哈顿要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线距离吗？显然不是，除非你能穿越大楼。实际驾驶距离就是这个“曼哈顿距离”。而这也是曼哈顿距离名称的来源，曼哈顿距离也称为城市街区距离(City Block distance)。两个 $n$ 维向量 $a (a 1; a 2; \dots; a n)$ 与 $b (b 1; b 2; \dots; b n)$ 间的曼哈顿距离：
$d=\sum_{k=1}^n{|a_k-b_k|}$
$L_1$ 范数的解通常是稀疏性的，倾向于选择数目较少的一些非常大的值或者数目较多的insignificant的小值。按照和# $L_0$ 范数一样的理解的话就应该是 $x$ 到 $\vec0$ 的曼哈顿距离。

$L_2$ 范数

L2范数: $x||_2$ 为 $x$ 向量各个元素平方和的1/2次方， $L_2$ 范数又称Euclidean范数（欧氏距离）或者Frobenius范数。 $L_2$ 范数应该是所有范数中最让我们熟悉的范数了，其实就是平面几何里的距离，其实我认为你完全可以吧p范数里的p理解为维度， $L_2$ 范数就是二维空间， $L_1$ 范数就是一维（ $L_0$ 范数就比较尴尬了，这个仁者见仁吧）。 $L_2$ 范数越小，可以使得w的每个元素都很小，接近于0，但与 $L_1$ 范数不同的是他不会让它等于0而是接近于0.。由于 $L_1$ 范数并没有平滑的函数表示，起初 $L_1$ 最优化问题解决起来非常困难，但随着计算机技术的到来，利用很多凸优化算法使得 $L_1$ 最优化成为可能。 $L_2$ 范数的代数表示为：
$d=\sqrt[2]{(a-b)^T(a-b)}$

$L_p$ 范数

Lp范数: $x||_p$ 为 $x$ 向量各个元素绝对值 $p$ 次方和的 $1 / p$ 次方。这个时候他叫p范数，他也是Minkowski Distance（闵可夫斯基距离，简称闵氏距离），其代数表示为：
$d=\sqrt[p]{\sum_{k=1}^n{|a_k-b_k|}^p}$

其中p是一个变参数。
当p=1时，就是曼哈顿距离
当p=2时，就是欧氏距离
当p→∞时，就是切比雪夫距离
根据变参数的不同，闵氏距离可以表示一类的距离。用图形表示就是:

闵氏距离（包括曼哈顿距离、欧氏距离和切比雪夫距离。）都存在明显的缺点，如果用闵氏距离来度量相似度的时候，很可能出现度量衡不同的情况，放到实际场景中就是，先举个比较常用的例子，身高和体重，这两个变量拥有不同的单位标准，也就是有不同的scale。比如身高用毫米计算，而体重用千克计算，显然差10mm的身高与差10kg的体重是完全不同的。但在普通的欧氏距离中，这将会算作相同的差距。有意思…… 简单说来，闵氏距离的缺点主要有两个：

将各个分量的量纲(scale)，也就是“单位”当作相同的看待了。
没有考虑各个分量的分布（期望，方差等)可能是不同的。

标准化欧式距离（Standardized Euclidean Distance）

那么如何针对一些特定的范数解决上面提到的这两个问题呢？最常讨论的就是Euclidean Distance的优化。既然在各个维度上的数据分布不同，那么我们将所有维度的数据都进行一次标准化，标准化到什么标准呢？那肯定是标准化到均值方差都相等啊，那么到底相等到多少呢？这里先复习点统计学知识吧，假设样本集X的均值(mean)为m，标准差(standard deviation)为s，那么X的“标准化变量”表示为： $X'=\frac{X-m}{s}$ 。而且标准化变量的数学期望为0，方差为1。因此样本集的标准化过程(standardization)用公式描述就是： $x^*=\frac{x-\mu}{\delta}$ 。经过简单的推导就可以得到两个n维向量a(a1,a2,…,an)与 b(b1,b2,…,bn)间的标准化欧氏距离的公式：
$d=\sqrt[p]{\sum_{k=1}^n{ (\frac{a_k-b_k}{\delta_k}) ^2 } }$

$L_\infty$ 范数

$L_∞$ 范数: $||x||_\infty$ 为x向量各个元素绝对值最大那个元素的绝对值。这里又来一个名词叫做：切比雪夫距离 ( Chebyshev Distance ) 。国际象棋玩过么？（没玩过，因为我也是抄的别人的博客）国王走一步能够移动到相邻的8个方格中的任意一个。那么国王从格子(x1,y1)走到格子(x2,y2)最少需要多少步？自己走走试试。你会发现最少步数总是max( | x2-x1 | , | y2-y1 | ) 步。有一种类似的一种距离度量方法叫切比雪夫距离： $d=\max_k{|a_k-b_k|} or d = \lim_{p\rightarrow\infty}{(\sum_{k=1}^n(|a_k-b_k|^p))^\frac{1}{p}}$
事实上就是两个n维向量a(a1;a2;…;an)与 b(b1;b2;…;bn)间的曼哈顿距离。

##余弦距离（Cosine Distance）
几何中夹角余弦可用来衡量两个向量方向的差异，机器学习中借用这一概念来衡量样本向量之间的差异。在几何中余弦距离的计算公式如下： $cos(\theta)=\frac{x_1x_2+y_1y_2}{\sqrt[2]{x_1^2+y_1^2}\sqrt[2]{x_2^2+y_2^2}}$
这个思想进入线性代数后计算两个向量的夹角余弦就是：
$cos(\theta)=\frac{a^Tb}{|a|\cdot|b|}$
夹角余弦取值范围为[-1,1]。夹角余弦越大表示两个向量的夹角越小，夹角余弦越小表示两向量的夹角越大。当两个向量的方向重合时夹角余弦取最大值1，当两个向量的方向完全相反夹角余弦取最小值-1。

##杰卡德系数(Jaccard coefficient)

杰卡德相似系数(Jaccard Similarit Coefficient)

两个集合A和B的交集元素在A，B的并集中所占的比例，称为两个集合的杰卡德相似系数，用符号J(A,B)表示。
$\frac{|A\cap B|}{|A\cup B|}$
杰卡德相似系数是衡量两个集合的相似度一种指标。可将杰卡德相似系数用在衡量样本的相似度上。样本A与样本B是两个n维向量，而且所有维度的取值都是0或1。

杰卡德距离(Jaccard Distance)

与杰卡德相似系数相反的概念是杰卡德距离(Jaccard distance)。杰卡德距离可用如下公式表示：
$J_\delta(A,B) = 1 - J(A, B) = \frac{|A\cup B| - |A\cap B|}{|A\cup B|}$
杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。