机器学习中距离/相似度的度量方法总结——闵科夫斯基距离、杰卡德距离、余弦相似度、Pearson相似系数、相对熵（KL散度）、Hellinger距离

最新推荐文章于 2024-11-02 17:51:52 发布

原创

最新推荐文章于 2024-11-02 17:51:52 发布 · 3.6k 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#相似度 #机器学习 #目标函数 #评价指标 #距离

本文介绍了几种常用的量化分布相似度的方法，包括闵科夫斯基距离、杰卡德距离、余弦相似度、Pearson相似系数、相对熵（KL散度）及Hellinger距离等，并详细解析了每种方法的计算公式及其特性。

量化两个分布的相似度/距离可以用于：

1.聚类性能的度量（内部指标）： 当没有一个参考模型做对比的时候，可以采用如下内部指标衡量聚类结果。
2.量化模型（系统）稳定性： 例如当某一系统两个时段收集的样本集分别为X和Y，假设两个时段里X和Y各自服从某一种分布，可以通过如下相似度度量方法分析两个分布的相似度，从而判断系统关于时间的稳定性。

PS：距离度量要满足：非负性、同一性（ $d i s t (x, y) = 0$ ，当且仅当x=y）、对称性、三角不等式；相似度度量则不做要求。

闵科夫斯基距离（Minkowski）

计算公式：
$dist(X,Y)=(∑i=1n∣xi−yi∣p)1pdist(X,Y)=\big(\sum_{i=1}^{n}|x_i-y_i|^p\big)^\frac{1}{p}$
描述: p=2,即欧式距离；p=1,即曼哈顿距离；p= $∞\infty$ ,即切比雪夫距离。

杰卡德距离（Jaccard）

计算公式：
$J(A,B)=∣A⋂B∣∣A⋃B∣J(A,B)=\frac{ |{A} \bigcap {B}| } { { |{A} \bigcup {B}| }}$
描述: 该距离满足三角不等式，是对称，非负距离。

余弦相似度（cosine similarity）

计算公式：
$cos⁡(θ)=xTy∣x∣⋅∣y∣=∑i=1nxiyi∑i=1nxi2∑i=1nyi2\cos(\theta) = \frac{x^Ty}{|x|\cdot|y|}= \frac{ \sum\limits_{i=1}^n x_iy_i }{ \sqrt{ \sum\limits_{i=1}^n x_i^{2} } \sqrt{ \sum\limits_{i=1}^n y_i^{2} } }$

最低0.47元/天解锁文章