闵可夫斯基距离
Minkowski距离,也成欧式距离,计算方法为:
dist(X,Y)=(∑ni=1|xi−yi|p)1p
这是我们最常用的一种距离度量方式,俗称范数。
当p = 2时就是我们常用的欧式距离。
Jaccard相似系数
J(A,B)=|A∩B||A∪B|
余弦相似度(consine similarity)
cos(θ)=XTY|X|⋅|Y|=∑ni=1XiYi∑ni=1X2i√∑ni=1Y2i√
Pearson相似系数
ρXY=cov(X,Y)σXσY=E[(X−μX)(Y−μY)]σXσY=∑ni=1(Xi−μX)(Yi−μY)∑ni=1(Xi−μX)2√∑ni=1(Yi−μY)2√
相对熵(K-L散度)
D(p||q)=∑ni=1p(x)logp(x)q(x)
Hellinger距离
Dα(p||q)=21−α2(1−∫p(x)1+α2q(x)1−α2dx)
余弦相似度 VS Pearson相关系数
可以看到,相关系数就是将x,y坐标向量平移到原点后的夹角余弦。
所以说,在文档间求距离时可以使用夹角余弦,因为它表征了文档取均值化后的随机向量间的相关系数。
在实际的应用中,我们可以根据应用的不同选择合适的距离度量标准。
文章来源:http://blog.youkuaiyun.com/u010161630/article/details/51786229