总结一下模式识别中的距离和相似度计算方式
一.距离
首先介绍闵科夫斯基距离:
[img]http://latex.codecogs.com/svg.latex?\left&space;(&space;\sum_{k=1}^{n}\left&space;|&space;x_{k}-y_{k}\right&space;|^{r}&space;\right&space;)\tfrac{1}{r}[/img]
r=1,城市街区距离,一个例子是汉明距离
r=2,欧几里得距离
r=∞,上确界距离
作为欧式距离的扩展,马氏距离的定义为:
[img]http://dl2.iteye.com/upload/attachment/0098/1277/8cd92aea-5ca2-3815-9c09-24aa8512c7da.jpg[/img]
马氏距离计算的是向量的协方差,可以理解为是根据属性的方差,将属性根据方差[color=darkred]拉伸[/color]后求得的距离。
二.相似度
1 二元数据相似度
简单匹配系数(SMC),公式:
[img]http://latex.codecogs.com/svg.latex?SMC=\frac{f_{11}+f_{00}}{f_{01}+f_{10}+f_{11}+f_{00}}[/img]
jacob系数,公式:
[img]http://latex.codecogs.com/svg.latex?J=\frac{f_{11}}{f_{01}+f_{10}+f_{11}}[/img]
简单匹配系数和jacob系数比较相似,可以理解为,简单匹配系数对于所有的属性平等对待,而jacob系数更关注被比较双方同时发生的事件,忽略都没有做的事件(一个常见的例子是购物)
2 余弦相似度
[img]http://latex.codecogs.com/svg.latex?cos(x,y)=\frac{x*y}{\left\|x\right\|\left\|y\right\|}[/img]
余弦相似度计算的是两个向量之间的夹角余弦值,在计算之前将变量规范化,可以节省计算时间
3 广义jacob系数
广义jacob系数在二元属性下退化为jacob系数,公式:
[img]http://latex.codecogs.com/svg.latex?EJ(x,y)=\frac{x*y}{\left\|x\right\|^{2}+\left\|y\right\|^{2}-x*y}[/img]
4 相关性(皮尔逊相关)
相关性是计算属性间相关度的公式,结果在-1到1之间,-1表示属性完全负相关,1表示完全正相关,贴出公式和图解释。
[img]http://dl2.iteye.com/upload/attachment/0098/1271/906cfa37-cbb2-303c-af84-0d873bf6b430.jpg[/img]
[img]http://dl2.iteye.com/upload/attachment/0098/1273/275283f4-6f13-31c5-82f3-d1cb16ed5a60.jpg[/img]
补充:
tanimoto系数
[img]http://dl2.iteye.com/upload/attachment/0100/7013/a39a0733-abb9-38a1-b45d-7e0ef84cadd8.jpg[/img]
参考:
《数据挖掘导论》
一.距离
首先介绍闵科夫斯基距离:
[img]http://latex.codecogs.com/svg.latex?\left&space;(&space;\sum_{k=1}^{n}\left&space;|&space;x_{k}-y_{k}\right&space;|^{r}&space;\right&space;)\tfrac{1}{r}[/img]
r=1,城市街区距离,一个例子是汉明距离
r=2,欧几里得距离
r=∞,上确界距离
作为欧式距离的扩展,马氏距离的定义为:
[img]http://dl2.iteye.com/upload/attachment/0098/1277/8cd92aea-5ca2-3815-9c09-24aa8512c7da.jpg[/img]
马氏距离计算的是向量的协方差,可以理解为是根据属性的方差,将属性根据方差[color=darkred]拉伸[/color]后求得的距离。
二.相似度
1 二元数据相似度
简单匹配系数(SMC),公式:
[img]http://latex.codecogs.com/svg.latex?SMC=\frac{f_{11}+f_{00}}{f_{01}+f_{10}+f_{11}+f_{00}}[/img]
jacob系数,公式:
[img]http://latex.codecogs.com/svg.latex?J=\frac{f_{11}}{f_{01}+f_{10}+f_{11}}[/img]
简单匹配系数和jacob系数比较相似,可以理解为,简单匹配系数对于所有的属性平等对待,而jacob系数更关注被比较双方同时发生的事件,忽略都没有做的事件(一个常见的例子是购物)
2 余弦相似度
[img]http://latex.codecogs.com/svg.latex?cos(x,y)=\frac{x*y}{\left\|x\right\|\left\|y\right\|}[/img]
余弦相似度计算的是两个向量之间的夹角余弦值,在计算之前将变量规范化,可以节省计算时间
3 广义jacob系数
广义jacob系数在二元属性下退化为jacob系数,公式:
[img]http://latex.codecogs.com/svg.latex?EJ(x,y)=\frac{x*y}{\left\|x\right\|^{2}+\left\|y\right\|^{2}-x*y}[/img]
4 相关性(皮尔逊相关)
相关性是计算属性间相关度的公式,结果在-1到1之间,-1表示属性完全负相关,1表示完全正相关,贴出公式和图解释。
[img]http://dl2.iteye.com/upload/attachment/0098/1271/906cfa37-cbb2-303c-af84-0d873bf6b430.jpg[/img]
[img]http://dl2.iteye.com/upload/attachment/0098/1273/275283f4-6f13-31c5-82f3-d1cb16ed5a60.jpg[/img]
补充:
tanimoto系数
[img]http://dl2.iteye.com/upload/attachment/0100/7013/a39a0733-abb9-38a1-b45d-7e0ef84cadd8.jpg[/img]
参考:
《数据挖掘导论》