一、距离度量
- 欧氏距离 (Euclidean Distance)
欧氏距离(Euclidean distance)是在几何空间中计算两点之间的距离的一种常见方法。它源于欧几里德空间中点的直线距离的概念,也被广泛用于机器学习和数据挖掘领域中的距离度量。
定义和公式
在二维或三维欧几里德空间中,两点(x1,y1)和(x2,y2)之间的欧氏距离可以通过以下公式计算
更一般地,在n维欧几里德空间中,两点(x1,x2,...,xn)和 (y1,y2,...,yn) 之间的欧氏距离定义为:
特点和用途
- 非负性:欧氏距离始终为非负数,即d≥0。
- 同一性:当且仅当两点重合时,欧氏距离为零,即d=0当且仅当xi=yi,∀i。
- 对称性:欧氏距离与点的顺序无关,即 d(x, y) = d(y, x)d(x,y)=d(y,x)。
- 三角不等式:对于任意三个点x,y,zx,y,z,有d(x,z)≤d(x,y)+d(y,z),这一特性使得欧氏距离在几何学和优化问题中具有重要应用。
在机器学习中,欧氏距离常用于聚类分析(如 K-means 算法)和数据挖掘中的特征相似性计算。然而,对于高维稀疏数据或非线性关系密集的数据,欧氏距离可能不是最佳选择,因为它假设各个维度的度量是等价的,这与实际情况不一定符合。
注释:高维稀疏数据是指数据集中包含许多特征(高维度),但每个样本的特征值大部分为零(稀疏性)。这种数据形式在现代数据科学和机器学习中相当常见,特别是在文本处理、推荐系统和生物信息学等领域。
总结
欧氏距离是一种直观且易于理解的距离度量方法,在许多应用中都能提供有效的结果。但在选择距离度量方法时,需要根据具体问题考虑数据的特点和应用的需求,以确保选用最合适的度量方法。
- 曼哈顿距离(Manhattan Distance)
曼哈顿距离(Manhattan distance),也称为城市街区距离或L1距离,是计算两点之间在网格状平面上的距离的方法。它得名于曼哈顿的街道规划,其中街道布局呈直角交叉的网格状,使得两点之间的行走距离为沿着街道的总长度。
定义和公式