Jaccard系数与Jaccard距离

最新推荐文章于 2025-07-02 17:00:30 发布

转载最新推荐文章于 2025-07-02 17:00:30 发布 · 4.2k 阅读

·

3

·

Data Analysis 专栏收录该内容

75 篇文章

订阅专栏

本文详细介绍了杰卡德(Jaccard)系数的概念及其计算方法，包括如何通过样本交集与并集的比例衡量相似度，同时解释了其在新闻过滤、考试防作弊及论文查重等场景的应用。

Jaccard（杰卡德）系数主要用于计算样本间的相似度。Jaccard系数的计算方式为：样本交集个数和样本并集个数的比值，用J(A,B)表示。公式为：
这里写图片描述

这里写图片描述

jaccard系数相反的即为jaccard距离，用两个集合中不同元素所占元素的比例来衡量两个样本之间的相似度，公式为：
这里写图片描述

这里写图片描述

Jaccard系数主要的应用的场景有
1.过滤相似度很高的新闻，或者网页去重
2.考试防作弊系统
3.论文查重系统
举个栗子:
集合A = {a, b, c, d}
集合B = {c, d, e, f}
A∩B = {c, d}
A∪B = {a, b, c, d, e, f}
交集中有2个元素，并集中有6个元素，因此：
杰卡德系数为：J(A,B) = 2/6 = 1/3
杰卡德距离为：1 - J(A,B) = 2/3
参考网址：
1. https://baike.baidu.com/item/Jaccard%E7%B3%BB%E6%95%B0/6784913?fr=aladdin
2. https://blog.youkuaiyun.com/bananaml/article/details/52894295

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。