距离(distance)、相似性(similarity)、向量范数(norm)

本文介绍了距离、相似性及其度量的基本性质,包括距离度量的非负性、同一性、对称性和直递性,以及相似性的归一化性质。此外,还详细讨论了向量范数的定义和常见范数,如1范数、2范数和无穷范数。文中列举了多种距离和相似性测度公式,如欧几里得距离、余弦相似性和Jaccard相似性,并给出了香农信息熵家族的相关度量。这些概念和度量在机器学习和数据挖掘等领域中有着广泛应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

距离

      对函数 dist(,) ,若它是一个“距离度量”(distance measure),则需满足一些基本性质 [1]
      非负性(Positive): dist(x,y)0
      同一性(Reflexive): dist(x,y)=0 当且仅当 x=y
      对称性(Symmetric): dist(x,y)=dist(y,x)
      直递性(Triangular inequation): dist(x,y)dist(x,z)+dist(z,y)

相似性

      对函数 sim(,) ,若它是一个归一化“相似性度量”(similarity measure),则有以下一些基本性质 [1]
       sim(x,y)[0,1]
       sim(x,y)=1 当且仅当 x=y
       sim(x,y)=0 当且仅当 x y 完全不一样

      通常可以通过距离来定义相似性:

sim(x,y)=1dist(x,y)

sim(x,y)=1dist(x,y)

向量范数

定义 如果 V 是数域 K 上的线性空间,且对于 V 的任一向量 χ ,对应一个实值函数 χ ,它满足以下三个条件 [2]
      非负性:当 χ0 χ>0 ;当 χ=0 χ=0
      齐次性: αχ=|α|χ χV
      三角不等式: χ+ζχ+ζ χζV
则称 χ V χ 的范数(norm)。

常用范数

假设向量 χ=(ξ1,ξ2,,ξn) ,则有 [2]
      1范数:

χ=ni=1|ξi|

      2范数(欧式范数):
χ2=|ξ1|2+|ξ2|2++|ξn|2

       范数:
χ=maxi|ξi|

      p范数:
χp=(ni=1|ξi|p)1p1p<+

      从上面定义及特性可以看出,距离、相似性、向量范数在很多种情况下是可以互相转化的。

常用的距离/相似性测度公式

  • 下面按照句法相似性(syntactic similarities)介绍一些距离测度、相似性测度家族 [3]
          假设 P=(P1,P2,,Pd),Q=(Q1,Q2,,Qd)

    • Lp Minkowski family (闵可夫斯基距离测度家族)
      • Euclidean L2     
        dEuc=di=1|PiQi|2
      • City block L1     
        dCB=di=1|PiQi|
      • Minkowski Lp     
        dMK=(di=1|PiQi|p)1p
      • Chebyshev L     
        dCheb=maxi|PiQi|
    • L1 family ( L1 范数测度家族)
      • Sorensen     
        dsor=di=1(Pi
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值