基础算法(零)---距离和相似性度量

在机器学习和数据挖掘中,经常需要知道个体间差异的大小,进而评价个体的相似性和类别。

  1. 数据分析中的相关分析
  2. 数据挖掘中的分类和聚类算法,如 K 最近邻和 K 均值等等

根据数据特性的不同,可以采用不同的度量方法,定义一个距离函数 d(x,y), 需要满足下面几个准则:

d(x,x) = 0 // 到自己的距离为0

d(x,y) >= 0 // 距离非负

d(x,y) = d(y,x) // 对称性: 如果 A 到 B 距离是 a,那么 B 到 A 的距离也应该是 a

d(x,k)+ d(k,y) >= d(x,y) // 三角形法则: (两边之和大于第三边)

主要的距离公式包括如下:

1. 闵可夫斯基距离:是2,3,4距离的综合体
这里写图片描述
其中p是一个变参数。
当p=1时,就是曼哈顿距离
当p=2时,就是欧氏距离
当p→∞时,就是切比雪夫距离
根据变参数的不同,闵氏距离可以表示一类的距离。

2. 曼哈顿距离
这里写图片描述

3. 欧几里得距离
这里写图片描述

4. 切比雪夫距离
这里写图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值