机器学习中的相似性度量【补充-向量表示形式】
一 数学距离
1.1 一些性质
(1)非负性
(a)对于所有的p1和p2,d(p1, p2)≥0,
(b)当且仅当p1=p2时,d(p1, p2)=0。
(2)对称性
对于所有的p1和p2,d(p1, p2)=d(p2, p1)。
(3 )当且仅当p1与p2为同一个点时,距离为0。
(4)三角不等式
对于所有的p1、p2和p3,d(p1, p3)≤d(p1, p2)+p(p2, p3)。
1.2 常见距离
1.2.1 欧氏距离Euclidean Distance(欧几里得度量、欧几里得距离)
二维空间的欧氏距离公式 d = sqrt( (x1-x2)^2+(y1-y2)^2 ) 三维空间的欧氏距离公式 d = sqrt( (x1-x2)^2+(y1-y2)^2+(z1-z2)^2 )
N维空间的欧氏距离公式 d(A,B) =sqrt [ ∑( ( a[i] - b[i] )^2 ) ] (i = 1,2,…,n)
N维欧氏空间是一个点集,它的每个点 X 可以表示为 (x[1],x[2],…,x[n]) ,其中 x[i] (i = 1,2,…,n) 是实数,称为 X 的第i个坐标,两个点 A = (a[1],a[2],…,a[n]) 和 B = (b[1],b[2],…,b[n]) 之间的距离 d(A,B) 定义为上面的公式。
因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。
1.2.2 明可夫斯基距离(Minkowski Distance)
明氏距离是欧氏距离的推广,是对多个距离度量公式的概括性的表述。公式如下: