余弦相似度算法：方向决定相似性

原创于 2025-12-18 14:57:25 发布 · 626 阅读

CC 4.0 BY-SA版权

文章标签：

余弦相似度是一种衡量两个向量方向相似性的数学工具，它不关心向量长度，只关注方向是否一致。通过计算两个向量夹角的余弦值，我们可以判断它们在空间中指向的方向是否相似。这种方法在文本分析、推荐系统和图像识别等领域应用广泛，因为它能够有效捕捉数据的本质特征而非表面差异。

一、生活化例子理解余弦相似度

想象你和两个朋友各自列出了他们最近喜欢的电影，我们可以用向量来表示这些偏好。例如：

向量A：[科幻电影观看次数, 动作电影观看次数, 爱情电影观看次数] = [3, 2, 1]

向量B：[科幻电影观看次数, 动作电影观看次数, 爱情电影观看次数] = [6, 4, 2]

向量C：[科幻电影观看次数, 动作电影观看次数, 爱情电影观看次数] = [1, 5, 3]

这三个向量分别代表三个人的电影观看偏好。虽然向量B的每个维度数值都是向量A的两倍，但它们指向的方向完全相同；而向量C虽然总观看次数更多，但方向与向量A明显不同。

计算余弦相似度时，向量A与B的相似度为1（完全相同方向），向量A与C的相似度则约为0.5，这表明虽然两个人都看了多种类型的电影，但他们的偏好比例不同，方向上存在差异。

另一个例子是购物偏好比较。假设两个购物车中不同商品的数量向量分别为：

购物车1：[苹果数量, 香蕉数量, 橘子数量] = [5, 3, 2]

购物车2：[苹果数量, 香蕉数量, 橘子数量] = [10, 6, 4]

尽管购物车2中的水果数量是购物车1的两倍，但它们的购买比例相同，因此方向完全一致，余弦相似度为1。这种情况下，即使购物车2的人买得多，我们仍然可以说他们的购物偏好高度相似。

二、余弦相似度计算原理步骤

计算余弦相似度遵循以下四个核心步骤，每个步骤都有明确的数学意义：

第一步：向量化表示对象特征

将需要比较的对象转换为数值向量。例如，对于文档，可以统计每个关键词出现的次数；对于用户评价，可以记录对不同产品的评分；对于电影观看记录，可以统计不同类型电影的观看次数。这种转换使得抽象概念能够用数学方法进行比较。

第二步：计算向量点积

点积是向量对应分量相乘后求和的结果。对于向量A = [a1, a2, …, an]和向量B = [b1, b2, …, bn]，点积计算为：a1×b1 + a2×b2 + … + an×bn点积反映了两个向量在方向上的协同程度。点积越大，说明两个向量在相同方向上的分量越多，方向越接近。

第三步：计算向量模长

向量的模长（长度）是各分量平方和的平方根。对于向量A，模长计算为：

√(a1² + a2² + … + an²)模长表示向量在空间中的"大小"，即向量的强度或规模。在余弦相似度计算中，模长用于消除向量长度差异的影响。

第四步：归一化计算余弦值

将点积除以两个向量模长的乘积，得到余弦相似度：

(A·B)/(||A|| × ||B||)这个归一化过程确保了结果仅取决于向量的方向，而与它们的长度无关。最终结果在-1到1之间，其中1表示方向完全相同，-1表示方向完全相反，0表示方向完全无关。

三、余弦相似度公式详解

余弦相似度的数学公式可以分解为三个关键部分：

分子部分：点积（A·B）

点积是向量对应维度乘积之和，它反映了两个向量在空间中方向的一致性。点积越大，说明两个向量在相同方向上的分量越多，方向越接近。例如，向量[3, 4]和[6, 8]的点积为3×6 + 4×8 = 18 + 32 = 50，这表明它们在方向上有很强的协同性。

分母部分：向量模长乘积（||A|| × ||B||）

向量模长是各分量平方和的平方根，它表示向量在空间中的长度。例如，向量[3, 4]的模长为√(3² + 4²) = 5。模长乘积用于归一化，确保结果不受向量长度的影响。

整体公式的意义

余弦相似度通过将点积除以模长乘积，将结果限制在[-1, 1]区间内。这个值的大小直接反映了两个向量方向的接近程度，而非它们在空间中的绝对距离。这种特性使得余弦相似度特别适合比较不同规模但可能具有相似模式的对象。

四、余弦相似度与其他相似度的区别

余弦相似度与欧几里得距离和Jaccard相似度是三种常用的相似度度量方法，它们各有特点：

欧几里得距离关注两个点在空间中的直线距离，它关心的是"有多接近"而非"方向是否一致"。例如，向量[1, 1]和[2, 2]的欧几里得距离为√[(2-1)² + (2-1)²] = √2，虽然方向相同，但距离并不为零。

Jaccard相似度适用于集合比较，计算交集大小与并集大小的比值，常用于比较二元属性（如是否购买过某商品）。例如，两个集合{苹果, 香蕉}和{苹果, 橘子}的Jaccard相似度为1/3。

相比之下，余弦相似度专注于方向一致性，这使其在处理高维数据时表现更为稳健。例如，在文本分析中，两篇文档可能长度不同（向量长度不同），但主题相似（方向一致），此时余弦相似度会给出较高的相似度分数，而欧几里得距离可能因为长度差异而给出较低的相似度。

五、余弦相似度的应用场景

余弦相似度因其独特的方向敏感特性，适用于多种场景：

文本相似度比较：在搜索引擎和推荐系统中，常用于判断两篇文档的主题相似性。例如，比较两篇关于人工智能的文章，即使一篇较长、另一篇较短，只要关键词出现的比例相似，余弦相似度就会较高。

推荐系统：用于比较用户偏好向量。例如，电商平台可以比较两个用户的购买历史向量，如果方向一致，则推荐相似的商品。

图像识别：在特征提取后，比较图像特征向量的方向一致性，判断图像内容是否相似。

情感分析：比较评论的情感向量，判断情感倾向是否相似。例如，两篇对某产品的评论可能用词不同，但情感向量方向一致，表明都是正面或负面评价。

六、余弦相似度的计算实例

让我们通过一个具体的计算实例来理解余弦相似度的计算过程：

向量A = [2, 1, 0]

向量B = [1, 1, 1]

步骤1：计算点积

A·B = (2×1) + (1×1) + (0×1) = 2 + 1 + 0 = 3

步骤2：计算向量模长

||A|| = √(2² + 1² + 0²) = √5 ≈ 2.236

||B|| = √(1² + 1² + 1²) = √3 ≈ 1.732

步骤3：归一化计算余弦相似度

cosθ = 3 / (√5 × √3) ≈ 3 / (2.236 × 1.732) ≈ 3 / 3.872 ≈ 0.775这个结果表明，向量A和B的方向有一定相似性，但并非完全一致。向量A更强调第一个维度（如科幻电影），而向量B在三个维度上分布更为均衡。

通过理解余弦相似度的原理和应用，我们可以更有效地比较和分析高维数据中的模式和趋势，这在现代数据科学和人工智能领域具有重要意义。