【数据】相似性和相异性的度量

我们在考虑数据的时候,常常会讨论数据间的相似性和相异性。我们使用术语邻近度来表示相似性和相异性。

【相异度】

我们定义两个对象之间的相异度是这两个对象差异程度的数值度量,我们通常所说的相异度其实就是距离。距离越小,相异度越低,则对象越相似。

【度量】

距离具有一些众所周知的性质(假设 D(x,y) D ( x , y ) 是点 x x y 的距离)
1.非负性  对于所有 x x y D(x,y)0 D ( x , y ) ≥ 0 ,当且仅当 x=y x = y D(x,y)=0 D ( x , y ) = 0
2.对称性  对于所有 x x y D(x,y)=D(y,x) D ( x , y ) = D ( y , x )
3.三角不等式 对于所有 x x y z z D ( x , z ) D ( x , y ) + D ( y , z )  
满足以上三条性质的测度,我们称之为度量。

【常用距离】

假设分别有两点 xi=(xi1,xi2,...,xim) x i = ( x i 1 , x i 2 , . . . , x i m ) yj=(yj1,yj2,...,yjm) y j = ( y j 1 , y j 2 , . . . , y j m )

1. Minkowski M i n k o w s k i 距离,又称闵式距离

其定义为:
Dij=(|xi1yj1|p+|xi2yj2|p+...+|ximyjm|p)1p D i j = ( | x i 1 − y j 1 | p + | x i 2 − y j 2 | p + . . . + | x i m − y j m | p ) 1 p
或者写成 Dij=(k=1m|xikyjk|p)1p D i j = ( ∑ k = 1 m | x i k − y j k | p ) 1 p

①当 p=1 p = 1 时,即曼哈顿距离
Dij=|xi1yj1|+|xi2yj2|+...+|ximyj

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值