量化两个分布的相似度/距离可以用于:
1.聚类性能的度量(内部指标): 当没有一个参考模型做对比的时候,可以采用如下内部指标衡量聚类结果。
2.量化模型(系统)稳定性: 例如当某一系统两个时段收集的样本集分别为X和Y,假设两个时段里X和Y各自服从某一种分布,可以通过如下相似度度量方法分析两个分布的相似度,从而判断系统关于时间的稳定性。
PS:距离度量要满足:非负性、同一性(dist(x,y)=0dist(x,y)=0dist(x,y)=0,当且仅当x=y)、对称性、三角不等式;相似度度量则不做要求。
闵科夫斯基距离(Minkowski)
计算公式:
dist(X,Y)=(∑i=1n∣xi−yi∣p)1pdist(X,Y)=\big(\sum_{i=1}^{n}|x_i-y_i|^p\big)^\frac{1}{p}dist(X,Y)=(i=1∑n∣xi−yi∣p)p1
描述: p=2,即欧式距离;p=1,即曼哈顿距离;p=∞\infty∞,即切比雪夫距离。
杰卡德距离(Jaccard)
计算公式:
J(A,B)=∣A⋂B∣∣A⋃B∣J(A,B)=\frac{ |{A} \bigcap {B}| } {
{ |{A} \bigcup {B}| }}J(A,B)=∣A⋃B∣∣A⋂B∣
描述: 该距离满足三角不等式,是对称,非负距离。
余弦相似度(cosine similarity)
计算公式:
cos(θ)=xTy∣x∣⋅∣y∣=∑i=1nxiyi∑i=1nxi2∑i=1nyi2\cos(\theta) = \frac{x^Ty}{|x|\cdot|y|}= \frac{ \sum\limits_{i=1}^n x_iy_i }{ \sqrt{ \sum\limits_{i=1}^n x_i^{2} } \sqrt{ \sum\limits_{i=1}^n y_i^{2} } } cos(θ)=∣x∣⋅∣y∣xTy=i=1∑nxi2i=1∑ny

本文介绍了几种常用的量化分布相似度的方法,包括闵科夫斯基距离、杰卡德距离、余弦相似度、Pearson相似系数、相对熵(KL散度)及Hellinger距离等,并详细解析了每种方法的计算公式及其特性。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



