机器学习中的距离计算

最新推荐文章于 2024-08-28 10:00:00 发布

原创最新推荐文章于 2024-08-28 10:00:00 发布 · 1.5k 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

机器学习同时被 2 个专栏收录

4 篇文章

订阅专栏

西瓜书学习笔记

3 篇文章

订阅专栏

《机器学习-周志华》学习笔记

机器学习中的距离

距离度量的基本性质

对函数 $dist(⋅,⋅)dist(\cdot,\cdot)$ ，若它是一个“距离度量”，则其满足以下性质：

非负性： $dist(xi,xj)≥0dist(x_i,x_j) \ge 0$ ;
同一性： $dist(xi,xj)=0,当且仅当xi=xjdist(x_i,x_j) = 0,\text{当且仅当}x_i=x_j$ ;
对称性： $dist(x_i,x_j) = dist(x_j,x_i)$ ；
直递性： $dist(xi,xj)≤dist(xi,xk)+dist(xk,xj)dist(x_i,x_j) \le dist(x_i,x_k)+dist(x_k,x_j)$ .

直递性常被称为“三角不等式”

闵可夫斯基距离（Minkowski distance）

给定样本 $xi=(xi1;xi2;⋯ ;xin)x_i=(x_{i1};x_{i2};\cdots ;x_{in})$ 和 $xj=(xj1;xj2;⋯ ;xjn)x_j=(x_{j1};x_{j2};\cdots ;x_{jn})$ ,闵可夫斯基距离为：
$distmk(xi,xj)=∥xi−xj∥p=(∑u=1n∣xiu−xju∣p)1pdist_{mk}(x_i,x_j)=\|x_i-x_j\|_p=\left( \sum_{u=1}^{n}|x_{iu}-x_{ju}|^p\right)^{\frac{1}{p}}$

对 $p≥1p\ge 1$ ,公式满足距离度量的所有性质

当 $p = 1$ 时，闵可夫斯基距离即为曼哈顿距离（Manhattan distance）,此时有
$distman(xi,xj)=∥xi−xj∥1=∑u=1n∣xiu−xju∣dist_{man}(x_i,x_j)=\|x_i-x_j\|_1= \sum_{u=1}^{n}|x_{iu}-x_{ju}|$

曼哈顿距离也称为“城市街区距离”(City Block distance)。

当 $p = 2$ 时，闵可夫斯基距离即为欧式距离（Euclidean distance）,此时有
$disted(xi,xj)=∥xi−xj∥2=∑u=1n∣xiu−xju∣pdist_{ed}(x_i,x_j)=\|x_i-x_j\|_2= \sqrt{\sum_{u=1}^{n}|x_{iu}-x_{ju}|^p}$

当 $p→∞p\to\infty$ 时，闵可夫斯基距离即为切比雪夫距离（Chebyshev distance）,此时有
$distcd(xi,xj)=∥xi−xj∥∞=limp→∞(∑u=1n∣xiu−xju∣p)1pdist_{cd}(x_i,x_j)=\|x_i-x_j\|_{\infty}=lim_{p\to\infty} \left( \sum_{u=1}^{n}|x_{iu}-x_{ju}|^p\right)^{\frac{1}{p}}$

闵氏距离的缺点：

将各个分量的量纲(scale)，也就是“单位”相同的看待了;
未考虑各个分量的分布（期望，方差等）可能是不同的。

说明：
机器学习中常将属性划分为连续属性（continuous attr）和离散属性（categorical attr），在讨论距离计算时，属性上是否定义了序关系更为重要，例如定义域 ${1,2,3\}$ 的离散属性与连续属性的性质更接近一些，能直接在属性上计算距离：“1”与“2”比较接近、与“3”比较远，这样的属性称为有序属性（ordinal attr）；而定义域为 ${飞机,火车,轮船}\{\text{飞机,火车,轮船}\}$ 这样的离散属性不能直接在属性值上计算距离，称为无序属性（non-ordinal attr）

显然，闵可夫斯基距离可用于有序属性

VDM（Value difference Metric）

当样本属性为无序属性时，使用VDM距离。属性u上两个离散值a与b之间的VDM距离为
$VDMp(a,b)=∑i=1k∣mu,a,imu,a−mu,b,imu,a∣pVDM_p(a,b)=\sum_{i=1}^k|\frac{m_{u,a,i}}{m_{u,a}}-\frac{m_{u,b,i}}{m_{u,a}}|^p$

其中：

$m_{u,a}$ 表示在属性u上取值为a的样本数
$m_{u,a,i}$ 表示在第i个样本簇中在属性u上取值为a的样本数
$k$ 为样本簇数

混合属性的距离计算

混合属性的距离计算可以将 闵可夫斯基距离 和 VDM 结合。

假定有 $n_c$ 个有序属性， $n-n_c$ 个无序属性，令有序属性排列在无序属性之前，则
$MinkovDMp(xi,xj)=(∑u=1nc∣xiu−xju∣p+∑u=uc+1nVDMp(xiu,xju))1pMinkovDM_p(x_i,x_j)=\left( \sum_{u=1}^{n_c}|x_{iu}-x_{ju}|^p+\sum_{u=u_c+1}^{n} VDM_p(x_{iu},x_{ju})\right)^{\frac{1}{p}}$

加权距离（weighted distance）

当样本空间中不同属性的重要性不同时，可使用加权距离
以加权闵可夫斯基距离为例：
$distwmk(xi,xj)=(w1⋅∣xi1−xj1∣p+⋯+wn⋅∣xin−xjn∣p)1pdist_{wmk}(x_i,x_j)=\left( w_1\cdot|x_{i1}-x_{j1}|^p+\cdots+ w_n\cdot|x_{in}-x_{jn}|^p\right)^{\frac{1}{p}}$