各类距离公式

这篇博客探讨了多种距离和相似度计算方法,包括闵可夫斯基距离及其特殊情况——欧式距离、曼哈顿距离和切比雪夫距离;还介绍了余弦相似度、汉明距离以及杰卡德相似系数和距离,这些都是衡量数据间差异和相似性的关键工具。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

给定两个n维变量A(x_{11},x_{12},...,x_{1n})B(x_{21},x_{22},...,x_{2n})

闵可夫斯基距离(Minkowski Distance)

d_{AB}=\sqrt[p]{\sum_{k=1}^{n}(x_{1k}-x_{2k})^_{p}}

其中,p是可变参数

p=1时,是曼哈顿距离

p=2时,是欧式距离

p\rightarrow \infty时,是切比雪夫距离

所以,严格意义上,闵可夫斯基距离不是一种距离,而是一组距离的定义。

欧式距离(Euclidean Distance)

d_{AB}=\sqrt[2]{\sum_{k=1}^{n}(x_{1k}-x_{2k})^_{2}}

表示为向量的形式则为:d_{AB}=\sqrt{(A-B)(A-B)^_{T}}

曼哈顿距离(Manhattan Distance)

d_{AB}=\sum_{k=1}^{n}|x_{1k}-x_{2k}|

切比雪夫距离(Chebyshev Distance)

d_{AB}=max_{i}(|x_{1i}-x_{2i}|)

余弦相似度(Cosine Similarity)

d_{AB}=\frac{AB}{|A||B|}=\frac{\sum_{k=1}^{n}x_{1k}x_{2k}}{\sqrt{\sum_{k=1}^{n}x_{1k}^{2}}\sqrt{\sum_{k=1}^{n}x_{2k}^{2}}}

主要用来衡量两个样本之间的差异,取值范围为[-1,1],夹角越小,夹角余弦值越大,反之则越小。

汉明距离(Hamming Distance)

定义:两个等长的字符串s1和s2之间的汉明距离为将其中一个字符串变为另一个时所需的最小替换次数,常用于信息编码。

杰卡德相似系数(Jaccard Similarity Coefficient)

一般用来衡量两个集合的相似度

J(A,B)=\frac{|A\cap B|}{|A\cup B|}

杰卡德距离(Jaccard Distance)

与杰卡德相似系数相反,是用来衡量两个集合的区分度的。

J_{\delta }(A,B)=1-J(A,B)=\frac{|A\cup B|-|A\cap B|}{|A\cup B|}

 

 

 


 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值