我们在考虑数据的时候,常常会讨论数据间的相似性和相异性。我们使用术语邻近度来表示相似性和相异性。
【相异度】
我们定义两个对象之间的相异度是这两个对象差异程度的数值度量,我们通常所说的相异度其实就是距离。距离越小,相异度越低,则对象越相似。
【度量】
距离具有一些众所周知的性质(假设D(x,y)D(x,y)是点xx和
的距离)
1.非负性 对于所有xx和
,D(x,y)≥0D(x,y)≥0,当且仅当x=yx=y时D(x,y)=0D(x,y)=0
2.对称性 对于所有xx和
,D(x,y)=D(y,x)D(x,y)=D(y,x)
3.三角不等式 对于所有xx、
和zz,
满足以上三条性质的测度,我们称之为度量。
【常用距离】
假设分别有两点xi=(xi1,xi2,...,xim)xi=(xi1,xi2,...,xim),yj=(yj1,yj2,...,yjm)yj=(yj1,yj2,...,yjm)
1.MinkowskiMinkowski距离,又称闵式距离
其定义为:
Dij=(|xi1−yj1|p+|xi2−yj2|p+...+|xim−yjm|p)1pDij=(|xi1−yj1|p+|xi2−yj2|p+...+|xim−yjm|p)1p
或者写成Dij=(∑k=1m|xik−yjk|p)1pDij=(∑k=1m|xik−yjk|p)1p
①当p=1p=1时,即曼哈顿距离
Dij=|xi1−yj1|+|xi2−yj2|+...+|xim−yjm