数学距离与相似度度量

本文详细介绍了数学中的各种距离和相似度度量,包括欧氏距离、明可夫斯基距离、曼哈顿距离、切比雪夫距离、马哈拉诺比斯距离和Jaccard距离。同时,探讨了向量空间余弦相似度、皮尔森相关系数以及Jaccard相似系数等相似度度量。文章强调了欧氏距离与余弦相似度在侧重点和适用场景上的差异,以及如何进行归一化处理。

机器学习中的相似性度量【补充-向量表示形式】


一  数学距离

1.1   一些性质

      数学距离具有一些性质。如果d(p1, p2)是两个点p1和p2之间的距离,则如下性质成立:

      (1)非负性

              (a)对于所有的p1和p2,d(p1, p2)≥0,

              (b)当且仅当p1=p2时,d(p1, p2)=0。

       (2)对称性

              对于所有的p1和p2,d(p1, p2)=d(p2, p1)。

       (3 )当且仅当p1与p2为同一个点时,距离为0。

        (4)三角不等式

              对于所有的p1、p2和p3,d(p1, p3)≤d(p1, p2)+p(p2, p3)。

     1.2 常见距离

        1.2.1 欧氏距离Euclidean Distance欧几里得度量、欧几里得距离)

         二维空间的欧氏距离公式   d = sqrt( (x1-x2)^2+(y1-y2)^2 ) 

           三维空间的欧氏距离公式  d = sqrt( (x1-x2)^2+(y1-y2)^2+(z1-z2)^2 )
         N维空间的欧氏距离公式  d(A,B) =sqrt [ ∑( ( a[i] - b[i] )^2 ) ] (i = 1,2,…,n)

           N维欧氏空间是一个点集,它的每个点 X 可以表示为 (x[1],x[2],…,x[n]) ,其中 x[i] (i = 1,2,…,n) 是实数,称为 X 的第i个坐标,两个点 A = (a[1],a[2],…,a[n]) 和 B =  (b[1],b[2],…,b[n]) 之间的距离 d(A,B) 定义为上面的公式。

  因为计算是基于各维度特征的绝对数值,所以欧氏度量需要保证各维度指标在相同的刻度级别,比如对身高(cm)和体重(kg)两个单位不同的指标使用欧式距离可能使结果失效。

     1.2.2 明可夫斯基距离(Minkowski Distance)

          明氏距离是欧氏距离的推广,是对多个距离度量公式的概括性的表述。公式如下:



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值