1. 几种相似度
1.1 Jaccard系数
杰卡德系数(Jaccard index) , 又称为Jaccard相似系数(Jaccard similarity coefficient),用于比较有限样本集之间的相似性与差异性。

1.2 余弦相似度
余弦相似度,又称为余弦相似性,是通过计算两个向量的夹角余弦值来评估他们的相似度。
对于二维空间,根据向量点积公式,显然可以得知:

设向量 A = (A1,A2,...,An),B = (B1,B2,...,Bn) :

2. 相似度与距离
2.1 杰卡德距离和余弦距离的对比
杰卡德距离Jaccard distance(‘jaccard’)
Jaccard距离常用来处理仅包含非对称的二元(0-1)属性的对象。很显然,Jaccard距离不关心0-0匹配[1]。
夹角余弦距离Cosine distance(‘cosine’)
与Jaccard距离相比,Cosine距离不

本文介绍了余弦相似度和杰卡德相似度的概念,并对比了它们与Jaccard距离、余弦距离的关系。通过实例展示了如何在MATLAB中利用pdist和pdist2函数计算这两种距离,强调了在不同场景下选择哪种度量的适用性。
最低0.47元/天 解锁文章
4067

被折叠的 条评论
为什么被折叠?



