我们在考虑数据的时候,常常会讨论数据间的相似性和相异性。我们使用术语邻近度来表示相似性和相异性。
【相异度】
我们定义两个对象之间的相异度是这两个对象差异程度的数值度量,我们通常所说的相异度其实就是距离。距离越小,相异度越低,则对象越相似。
【度量】
距离具有一些众所周知的性质(假设 D(x,y) D ( x , y ) 是点 x x 和
的距离)
1.非负性 对于所有 x x 和
, D(x,y)≥0 D ( x , y ) ≥ 0 ,当且仅当 x=y x = y 时 D(x,y)=0 D ( x , y ) = 0
2.对称性 对于所有 x x 和
, D(x,y)=D(y,x) D ( x , y ) = D ( y , x )
3.三角不等式 对于所有 x x 、
和 z z ,
满足以上三条性质的测度,我们称之为度量。
【常用距离】
假设分别有两点 xi=(xi1,xi2,...,xim) x i = ( x i 1 , x i 2 , . . . , x i m ) , yj=(yj1,yj2,...,yjm) y j = ( y j 1 , y j 2 , . . . , y j m )
1. Minkowski M i n k o w s k i 距离,又称闵式距离
其定义为:
Dij=(|xi1−yj1|p+|xi2−yj2|p+...+|xim−yjm|p)1p D i j = ( | x i 1 − y j 1 | p + | x i 2 − y j 2 | p + . . . + | x i m − y j m | p ) 1 p
或者写成 Dij=(∑k=1m|xik−yjk|p)1p D i j = ( ∑ k = 1 m | x i k − y j k | p ) 1 p
①当 p=1 p = 1 时,即曼哈顿距离
Dij=|xi1−yj1|+|xi2−yj2|+...+|xim−yj