欧式距离和马式距离的区别

最新推荐文章于 2024-09-24 12:40:31 发布

原创

最新推荐文章于 2024-09-24 12:40:31 发布 · 1.3w 阅读

49 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

本文探讨了欧式距离和马氏距离在数据挖掘中的应用及其区别。欧式距离受数据分布、噪声、高维度和特征度量标准影响，而马氏距离则通过协方差矩阵消除量纲和属性相关性影响，实现坐标旋转和数据压缩。马氏距离更合理地考虑了全局数据统计特性，避免了欧式距离的局限性。

前言

为什么要讨论这两个距离之间的区别？

因为，距离函数的选择对数据挖掘算法的效果具有很大的影响，使用错误的距离函数对挖掘过程非常有害。有时候，语义非常相似的对象被认为不相似，而语义不相似的对象却被认为是相似的，这都是因为距离函数选择不佳导致的。这篇文章就是想告诉大家欧式距离不是万能的，距离函数的选择应该随应用场景而定。

欧式距离

设有两个n维数据点 $X=(x_1,x_2,...,x_n)$ 和 $Y=(y_1,y_2,...,y_n)$ 之间的欧几里得距离为：
$\begin{aligned} Dist(X,Y)=\sqrt{\sum\limits_{i=1}^n(x_i-y_i)^2}=\sqrt{(X-Y)(X-Y)^T} \end{aligned}$
欧式距离表示的是两点之间的直线距离，它有个很好的性质就是旋转不变性，即两点之间的距离不会因为坐标轴的改变而改变。然而，欧式距离受到数据分布、噪声、高维度和特征度量标准的影响，效果并不太好。

马氏距离

设有 $n \times m$ 维数据集D，令 $S∈S\in$ $R^{m×m}$ 为数据集D的协方差矩阵, $X 、 Y$ 是数据集D中的任意两行，两个m维行向量的马哈拉诺比斯距离为：
$\begin{aligned} Dist(X,Y)=\sqrt{(X-Y)S^{-1} (X-Y)^T} \end{aligned}$

最低0.47元/天解锁文章