基于Jaccard相似度算法原理：从日常例子到数学公式

原创已于 2025-12-11 11:12:13 修改 · 518 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #人工智能 #Jaccard #相似性算法

于 2025-12-09 16:25:24 首次发布

AI算法专栏收录该内容

6 篇文章

订阅专栏

Jaccard相似度是一种简单而强大的集合相似性度量方法，广泛应用于推荐系统、文本分析和生物信息学等领域。它通过计算两个集合的交集与并集的比值，直观地反映两个对象的相似程度。对于技术小白来说，理解这一算法不需要复杂的数学背景，只需掌握集合的基本概念和简单的比例计算即可。

一、通俗易懂的例子理解Jaccard相似度

例子1：水果爱好者的相似度

想象有两个朋友，小明和小红，他们各自列出自己喜欢的水果：

小明喜欢的水果：{苹果, 香蕉, 橘子, 葡萄}
小红喜欢的水果：{香蕉, 橘子, 梨, 草莓}

要计算他们水果喜好的相似度，我们可以使用Jaccard相似度算法：

交集是两个人都喜欢的水果，即{香蕉, 橘子}，共有2种。

并集是两个人喜欢的所有水果，即{苹果, 香蕉, 橘子, 葡萄, 梨, 草莓}，共有6种。

Jaccard相似度 = 交集大小 / 并集大小 = 2/6 ≈ 0.333

这个数值告诉我们，小明和小红的水果喜好有约33.3%的重叠部分，相似度中等。

例子2：电影爱好者的相似度

另一个例子是两个电影爱好者的观影记录：

用户A看过的电影：{泰坦尼克号, 肖申克的救赎, 阿凡达, 星球大战}
用户B看过的电影：{肖申克的救赎, 阿凡达, 美国丽人, 阿甘正传}

计算他们的电影喜好相似度：

交集是{肖申克的救赎, 阿凡达}，共2部电影。

并集是{泰坦尼克号, 肖申克的救赎, 阿凡达, 星球大战, 美国丽人, 阿甘正传}，共6部电影。Jaccard相似度 = 2/6 ≈ 0.333

这个结果表明，用户A和用户B的电影喜好有约33.3%的共同点，可以考虑为他们推荐彼此看过的其他电影。

二、Jaccard相似度算法原理步骤

理解Jaccard相似度的核心在于掌握以下四个步骤：

步骤1：确定比较对象的集合表示

将需要比较的两个对象转换为集合形式。集合中的元素可以是任何可区分的项目，如水果名称、电影名称、关键词等。步骤2：计算两个集合的交集

找出两个集合中共同存在的元素数量。交集越大，说明两个对象的共同点越多。步骤3：计算两个集合的并集

统计两个集合中所有存在的元素数量，不重复计算。并集越小，说明两个对象在特征上有越多的重叠。步骤4：求交集与并集的比值

将交集大小除以并集大小，得到一个介于0到1之间的数值。数值越大，两个对象的相似度越高；数值越小，相似度越低。在实际应用中，这些步骤通常通过计算机程序自动完成。例如，在推荐系统中，算法会自动分析用户的历史行为，将这些行为转换为集合，并计算相似度，从而为用户提供个性化的推荐。

三、Jaccard相似度的数学公式总结与解释

1. 基本公式

Jaccard相似度的数学表达式为：

J(A,B) = |A ∩ B| / |A ∪ B|

其中：

A和B是两个集合
|A ∩ B| 表示A和B的交集大小（共同元素的数量）
|A ∪ B| 表示A和B的并集大小（所有不同元素的总数）

这个公式非常直观，它告诉我们两个集合的相似程度取决于它们共有元素的比例。当两个集合完全相同时，Jaccard相似度为1；当两个集合没有任何共同元素时，相似度为0。

2. 二元属性扩展公式

在实际应用中，特别是推荐系统中，我们经常需要比较多个二元属性（如用户是否看过某部电影、是否点击过某个商品等）。此时，Jaccard相似度可以表示为：

J(A,B) = P / (P + Q + R)

其中：

P是两个集合中都为1的属性数量
Q是A为1而B为0的属性数量
R是A为0而B为1的属性数量

这个公式特别适合处理高维度的稀疏数据，如用户行为数据，其中大多数属性可能为0（用户未进行某种行为）。

3. 边界情况处理

当两个集合都为空集时（即没有任何元素），Jaccard相似度通常定义为1，表示它们完全相同（都为空）。当至少一个集合为空集时，相似度为0，因为它们没有任何共同元素。

4. Jaccard距离

与Jaccard相似度相对应的是Jaccard距离，它表示两个集合的不相似程度：

d(A,B) = 1 - J(A,B) = (Q + R) / (P + Q + R)

Jaccard距离越大，两个集合的相似度越低；距离越小，相似度越高。

四、Jaccard相似度在推荐系统中的应用

1. 用户协同过滤

在推荐系统中，Jaccard相似度常用于用户协同过滤。例如，比较两个用户的商品浏览历史：

用户1浏览过的商品：{手机, 电脑, 耳机, 鼠标}
用户2浏览过的商品：{电脑, 耳机, 键盘, 显示器}

计算他们的浏览历史相似度：

交集是{电脑, 耳机}，共2个商品。

并集是{手机, 电脑, 耳机, 鼠标, 键盘, 显示器}，共6个商品。Jaccard相似度 = 2/6 ≈ 0.333

如果两个用户的相似度足够高，系统可以推荐用户1浏览过但用户2尚未浏览的商品给用户2，反之亦然。

2. 物品协同过滤

Jaccard相似度也可以用于物品之间的相似度计算。例如，比较两个商品被浏览的用户群体：

商品A被浏览的用户：{用户1, 用户2, 用户3}
商品B被浏览的用户：{用户2, 用户3, 用户4}

Jaccard相似度 = 2/4 = 0.5

这个结果表明，商品A和商品B有50%的共同用户群体，因此可以认为它们具有一定的相似性，系统可能会将它们推荐给相同的用户群体。

五、Jaccard相似度的优缺点分析

优点

简单直观：计算过程仅涉及集合的交集和并集，易于理解和实现。
对称性：J(A,B) = J(B,A)，比较结果不受比较顺序影响。
范围明确：结果在0到1之间，直接反映相似程度，便于比较和解释。
适合稀疏数据：在高维度稀疏数据（如用户行为数据）中表现良好，能有效避免"零向量"问题。

缺点

对集合大小敏感：当两个集合大小差异较大时，即使它们有较多共同元素，相似度也可能较低。
不考虑元素权重：所有元素在计算中具有相同权重，无法区分重要元素和次要元素。
无法处理连续值：只能处理二元属性（存在或不存在），无法直接处理连续值（如评分、数量等）。

六、Jaccard相似度的代码实现示例

Python实现

def jaccard_similarity(set_a, set_b):
    # 计算交集大小
    intersection = len(set_a & set_b)
    # 计算并集大小
    union = len(set_a | set_b)
    # 处理空集情况
    if union == 0:
        return 1.0
    return intersection / union

# 示例：水果爱好者的相似度
fruits_a = {"苹果", "香蕉", "橘子", "葡萄"}
fruits_b = {"香蕉", "橘子", "梨", "草莓"}
print(jaccard_similarity(fruits_a, fruits_b))  # 输出：0.333

Java实现

import java.util.HashSet;
import java.util.Set;

public class JaccardSimilarity {
    public static double calculateJaccardSimilarity(Set<String> setA, Set<String> setB) {
        // 计算交集
        Set<String> intersection = new HashSet<>(setA);
        intersection.retainAll(setB);
        int intersectionSize = intersection.size();

        // 计算并集
        Set<String> union = new HashSet<>(setA);
        union.addAll(setB);
        int unionSize = union.size();

        // 处理空集情况
        if (unionSize == 0) {
            return 1.0;
        }

        return (double) intersectionSize / unionSize;
    }

    public static void main(String[] args) {
        // 示例：电影爱好者的相似度
        Set<String> moviesA = new HashSet<>(Arrays.asList("泰坦尼克号", "肖申克的救赎", "阿凡达", "星球大战"));
        Set<String> moviesB = new HashSet<>(Arrays.asList("肖申克的救赎", "阿凡达", "美国丽人", "阿甘正传"));
        System.out.println("Jaccard相似度: " + calculateJaccardSimilarity(moviesA, moviesB));  // 输出：0.333
    }
}

七、Jaccard相似度与其他相似度度量的对比

Jaccard相似度常与以下相似度度量方法进行比较：

度量方法	适用场景	主要特点
Jaccard相似度	集合数据、二元属性	简单直观，适合稀疏数据
余弦相似度	向量空间模型、文本分析	考虑向量方向，适合高维数据
欧氏距离	连续数值型数据	考虑向量长度，对差异敏感
皮尔逊相关系数	连续数值型数据	考虑数据分布，消除量纲影响