距离和相似度

总结一下模式识别中的距离和相似度计算方式

一.距离

首先介绍闵科夫斯基距离:

[img]http://latex.codecogs.com/svg.latex?\left&space;(&space;\sum_{k=1}^{n}\left&space;|&space;x_{k}-y_{k}\right&space;|^{r}&space;\right&space;)\tfrac{1}{r}[/img]

r=1,城市街区距离,一个例子是汉明距离
r=2,欧几里得距离
r=∞,上确界距离

作为欧式距离的扩展,马氏距离的定义为:


[img]http://dl2.iteye.com/upload/attachment/0098/1277/8cd92aea-5ca2-3815-9c09-24aa8512c7da.jpg[/img]


马氏距离计算的是向量的协方差,可以理解为是根据属性的方差,将属性根据方差[color=darkred]拉伸[/color]后求得的距离。

二.相似度

1 二元数据相似度

简单匹配系数(SMC),公式:

[img]http://latex.codecogs.com/svg.latex?SMC=\frac{f_{11}+f_{00}}{f_{01}+f_{10}+f_{11}+f_{00}}[/img]

jacob系数,公式:

[img]http://latex.codecogs.com/svg.latex?J=\frac{f_{11}}{f_{01}+f_{10}+f_{11}}[/img]

简单匹配系数和jacob系数比较相似,可以理解为,简单匹配系数对于所有的属性平等对待,而jacob系数更关注被比较双方同时发生的事件,忽略都没有做的事件(一个常见的例子是购物)

2 余弦相似度

[img]http://latex.codecogs.com/svg.latex?cos(x,y)=\frac{x*y}{\left\|x\right\|\left\|y\right\|}[/img]

余弦相似度计算的是两个向量之间的夹角余弦值,在计算之前将变量规范化,可以节省计算时间

3 广义jacob系数

广义jacob系数在二元属性下退化为jacob系数,公式:

[img]http://latex.codecogs.com/svg.latex?EJ(x,y)=\frac{x*y}{\left\|x\right\|^{2}+\left\|y\right\|^{2}-x*y}[/img]

4 相关性(皮尔逊相关)

相关性是计算属性间相关度的公式,结果在-1到1之间,-1表示属性完全负相关,1表示完全正相关,贴出公式和图解释。

[img]http://dl2.iteye.com/upload/attachment/0098/1271/906cfa37-cbb2-303c-af84-0d873bf6b430.jpg[/img]


[img]http://dl2.iteye.com/upload/attachment/0098/1273/275283f4-6f13-31c5-82f3-d1cb16ed5a60.jpg[/img]

补充:
tanimoto系数


[img]http://dl2.iteye.com/upload/attachment/0100/7013/a39a0733-abb9-38a1-b45d-7e0ef84cadd8.jpg[/img]


参考:

《数据挖掘导论》
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值