距离
对函数 dist(⋅,⋅) ,若它是一个“距离度量”(distance measure),则需满足一些基本性质 [1] :
非负性(Positive): dist(x,y)≥0
同一性(Reflexive): dist(x,y)=0 当且仅当 x=y
对称性(Symmetric): dist(x,y)=dist(y,x)
直递性(Triangular inequation): dist(x,y)≤dist(x,z)+dist(z,y)
相似性
对函数 sim(⋅,⋅) ,若它是一个归一化“相似性度量”(similarity measure),则有以下一些基本性质 [1] :
sim(x,y)∈[0,1]
sim(x,y)=1 当且仅当 x=y
sim(x,y)=0 当且仅当 x 和 y 完全不一样
通常可以通过距离来定义相似性:
向量范数
定义 如果 V 是数域 K 上的线性空间,且对于 V 的任一向量 χ ,对应一个实值函数 ∥χ∥ ,它满足以下三个条件 [2] :
非负性:当 χ≠0 时 ∥χ∥>0 ;当 χ=0 时 ∥χ∥=0 ;
齐次性: ∥αχ∥=|α|∥χ∥ , χ∈V ;
三角不等式: ∥χ+ζ∥≤∥χ∥+∥ζ∥ , χ,ζ∈V
则称 ∥χ∥ 为 V 上
常用范数
假设向量 χ=(ξ1,ξ2,⋅⋅⋅,ξn) ,则有 [2]
1范数:
2范数(欧式范数):
∞ 范数:
p范数:
从上面定义及特性可以看出,距离、相似性、向量范数在很多种情况下是可以互相转化的。
常用的距离/相似性测度公式
下面按照句法相似性(syntactic similarities)介绍一些距离测度、相似性测度家族 [3]
假设 P=(P1,P2,⋅⋅⋅,Pd),Q=(Q1,Q2,⋅⋅⋅,Qd)- Lp Minkowski family (闵可夫斯基距离测度家族)
- Euclidean L2
dEuc=∑di=1|Pi−Qi|2−−−−−−−−−−−−√ - City block L1
dCB=∑di=1|Pi−Qi| - Minkowski Lp
dMK=(∑di=1|Pi−Qi|p)1p - Chebyshev L∞
dCheb=maxi|Pi−Qi|
- Euclidean L2
- L1 family ( L1 范数测度家族)
- Sorensen
dsor=∑di=1(Pi−
- Sorensen
- Lp Minkowski family (闵可夫斯基距离测度家族)