常用距离公式总结

自用。用于nlp课后作业整理

一 欧几里得距离(Euclidean Distance)

定义:

两点之间的直线距离,是最常用的距离测量方法

公式:

eq?d%28x%2C%20y%29%20%3D%20%5Csqrt%7B%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%28x_%7Bi%7D%20-%20y_%7Bi%7D%29%20%5E2%7D

使用场合:

常用于几何空间中,衡量两点间的直线距离。

适合特征值具有相似尺度的情况,应用于K-means、KNN等

数据分布为连续型、均匀尺度的数据场景

 

二 曼哈顿距离(Manhattan Distance)

定义:

两点在个维度上的绝对差的累加,也称为L1距离

公式:

eq?d%28x%2C%20y%29%20%3D%20%7B%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cleft%20%7C%20x_%7Bi%7D%20-%20y_%7Bi%7D%20%5Cright%20%7C%7D

使用场合:

常用于网格布局或离散空间中(如城市街道)

适合高维稀疏数据的相似性计算(one-hot矩阵?)对维度差异较大的数据较为鲁棒

 

三 余弦距离(Cosine Distance)

定义

向量间夹角的余弦值,用于衡量方向的差异

公式

eq?d%28x%2C%20y%29%20%3D%201%20-%20%5Ccos%20%5Ctheta%20%3D%201%20-%20%5Cfrac%7Bx%5Ccdot%20y%7D%7B%5Cleft%20%5C%7C%20x%20%5Cright%20%5C%7C%5Cleft%20%5C%7C%20y%20%5Cright%20%5C%7C%7D

使用场合

高维稀疏向量,如文本向量的相似性比较,在nlp、推荐系统中广泛应用

 

四 切比雪夫距离(Chebyshev Distance)

定义

两点在各维度的最大绝对差距,也称为eq?L%5Cinfty距离

公式

eq?d%28x%2C%20y%29%20%3D%20%5Cunderset%7Bi%7D%7Bmax%7D%5Cleft%20%7C%20x_%7Bi%7D%20-%20y_%7Bi%7D%20%5Cright%20%7C

使用场合

适用于棋盘格距离(如国际象棋中国王的步数)

用于对最坏情况敏感的场景

 

五 马氏距离(Mahalanobis Distance)

定义

考虑数据分布和特征相关性的距离度量

公式

eq?d%28x%2C%20y%29%20%3D%5Csqrt%7B%28x%20-%20y%29%5E%7BT%7DS%5E%7B-1%7D%28x-y%29%7D

其中,eq?S为数据的协方差矩阵

使用场合

用于数据具有相关性或非均匀分布的场景

在多元统计分析和异常检测中广泛应用

 

六 闵可夫斯基距离(Minkowski Distance)

定义

欧几里得距离和曼哈顿距离的广义形式

公式

eq?d%28x%2C%20y%29%20%3D%20%28%7B%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cleft%20%7C%20x_%7Bi%7D%20-%20y_%7Bi%7D%20%5Cright%20%7C%5E%7Bp%7D%7D%29%5E%7B%5Cfrac%7B1%7D%7Bp%7D%7D

eq?p%20%3D%201 时为曼哈顿距离

eq?p%20%3D%202 时为欧几里得距离

使用场合

适用于不同距离度量的统一框架中

 

七 汉明距离 (Hamming Distance)

定义

两个等长字符串对应位置不相同的字符个数

公式

eq?d%28x%2C%20y%29%20%3D%20%7B%5Csum_%7Bi%3D1%7D%5E%7Bn%7D%5Cdelta%20%28x_%7Bi%7D%2C%20y_%7Bi%7D%29%20%7D

其中,eq?%5Cdelta%20%28x_%7Bi%7D%2Cy%7Bi%7D%29%20%3D%201eq?x_%7Bi%7D%20%5Cneq%20y_%7Bi%7D; 否则为0

使用场合

比较字符串或二进制码的差异

用于纠错码和信息传输中的错误检测

 

八 杰卡德距离(Jaccard Distance)

定义

集合间的不相似性度量,即交集与并集之差的比例

公式

eq?d%28x%2C%20y%29%20%3D%201-%5Cfrac%7B%5Cleft%20%7C%20x%5Ccap%20y%20%5Cright%20%7C%7D%7B%5Cleft%20%7C%20x%5Ccup%20y%20%5Cright%20%7C%7D

使用场合

集合、布尔向量的相似性比较

在文本相似性、推荐系统中常用

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值