KNN算法(距离度量、归一化标准化)--day06

一、距离度量

  • 欧氏距离 (Euclidean Distance)

欧氏距离(Euclidean distance)是在几何空间中计算两点之间的距离的一种常见方法。它源于欧几里德空间中点的直线距离的概念,也被广泛用于机器学习和数据挖掘领域中的距离度量。

定义和公式

在二维或三维欧几里德空间中,两点(x1,y1)和(x2,y2)之间的欧氏距离可以通过以下公式计算

更一般地,在n维欧几里德空间中,两点(x1,x2,...,xn)和 (y1,y2,...,yn) 之间的欧氏距离定义为:

特点和用途

  1. 非负性:欧氏距离始终为非负数,即d≥0。
  2. 同一性:当且仅当两点重合时,欧氏距离为零,即d=0当且仅当xi=yi,i
  3. 对称性:欧氏距离与点的顺序无关,即 d(x, y) = d(y, x)d(x,y)=d(y,x)。
  4. 三角不等式:对于任意三个点x,y,zx,y,z,有d(x,z)≤d(x,y)+d(y,z),这一特性使得欧氏距离在几何学和优化问题中具有重要应用。

在机器学习中,欧氏距离常用于聚类分析(如 K-means 算法)和数据挖掘中的特征相似性计算。然而,对于高维稀疏数据或非线性关系密集的数据,欧氏距离可能不是最佳选择,因为它假设各个维度的度量是等价的,这与实际情况不一定符合。

注释:高维稀疏数据是指数据集中包含许多特征(高维度),但每个样本的特征值大部分为零(稀疏性)。这种数据形式在现代数据科学和机器学习中相当常见,特别是在文本处理、推荐系统和生物信息学等领域。

总结

欧氏距离是一种直观且易于理解的距离度量方法,在许多应用中都能提供有效的结果。但在选择距离度量方法时,需要根据具体问题考虑数据的特点和应用的需求,以确保选用最合适的度量方法。

  • 曼哈顿距离(Manhattan Distance)

曼哈顿距离(Manhattan distance),也称为城市街区距离或L1距离,是计算两点之间在网格状平面上的距离的方法。它得名于曼哈顿的街道规划,其中街道布局呈直角交叉的网格状,使得两点之间的行走距离为沿着街道的总长度。

定义和公式

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值