机器学习中距离/相似度的度量方法总结——闵科夫斯基距离、杰卡德距离、余弦相似度、Pearson相似系数、相对熵(KL散度)、Hellinger距离

本文介绍了几种常用的量化分布相似度的方法,包括闵科夫斯基距离、杰卡德距离、余弦相似度、Pearson相似系数、相对熵(KL散度)及Hellinger距离等,并详细解析了每种方法的计算公式及其特性。

量化两个分布的相似度/距离可以用于:

1.聚类性能的度量(内部指标): 当没有一个参考模型做对比的时候,可以采用如下内部指标衡量聚类结果。
2.量化模型(系统)稳定性: 例如当某一系统两个时段收集的样本集分别为X和Y,假设两个时段里X和Y各自服从某一种分布,可以通过如下相似度度量方法分析两个分布的相似度,从而判断系统关于时间的稳定性。

PS:距离度量要满足:非负性、同一性(dist(x,y)=0dist(x,y)=0dist(x,y)=0,当且仅当x=y)、对称性、三角不等式;相似度度量则不做要求。

闵科夫斯基距离(Minkowski)

计算公式:
dist(X,Y)=(∑i=1n∣xi−yi∣p)1pdist(X,Y)=\big(\sum_{i=1}^{n}|x_i-y_i|^p\big)^\frac{1}{p}dist(X,Y)=(i=1nxiyip)p1
描述: p=2,即欧式距离;p=1,即曼哈顿距离;p=∞\infty,即切比雪夫距离。

杰卡德距离(Jaccard)

计算公式:
J(A,B)=∣A⋂B∣∣A⋃B∣J(A,B)=\frac{ |{A} \bigcap {B}| } { { |{A} \bigcup {B}| }}J(A,B)=ABAB
描述: 该距离满足三角不等式,是对称,非负距离。

余弦相似度(cosine similarity)

计算公式:
cos⁡(θ)=xTy∣x∣⋅∣y∣=∑i=1nxiyi∑i=1nxi2∑i=1nyi2\cos(\theta) = \frac{x^Ty}{|x|\cdot|y|}= \frac{ \sum\limits_{i=1}^n x_iy_i }{ \sqrt{ \sum\limits_{i=1}^n x_i^{2} } \sqrt{ \sum\limits_{i=1}^n y_i^{2} } } cos(θ)=xyxTy=i=1nxi2 i=1ny

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值