余弦相似度 —— Cosine Similarity

本文深入探讨了余弦相似度的概念,它在向量空间中度量个体差异的方式,并与欧几里得距离进行了对比。阐述了在不同数据分析场景下,余弦相似度与欧几里得距离的适用性和区别。此外,文章还介绍了调整余弦相似度的方法,以更准确地反映个体特征的差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量,余弦相似度更加注重两个向量在方向上的差异,而非距离或长度上。

与欧几里德距离类似,基于余弦相似度的计算方法也是把用户的喜好作为n-维坐标系中的一个点,通过连接这个点与坐标系的原点构成一条直线(向量),两个用户之间的相似度值就是两条直线(向量)间夹角的余弦值。因为连接代表用户评分的点与原点的直线都会相交于原点,夹角越小代表两个用户越相似,夹角越大代表两个用户的相似度越小。同时在三角系数中,角的余弦值是在[-1, 1]之间的,0度角的余弦值是1,180角的余弦值是-1。

借助三维坐标系来看下欧氏距离和余弦相似度的区别:

从图上可以看出距离度量衡量的是空间各点间的绝对距离,跟各个点所在的位置坐标(即个体特征维度的数值)直接相关;而余弦相似度衡量的是空间向量的夹角,更加的是体现在方向上的差异,而不是位置。如果保持A点的位置不变,B点朝原方向远离坐标轴原点,那么这个时候余弦相似度cosθ是保持不变的,因为夹角不变,而A、B两点的距离显然在发生改变,这就是欧氏距离和余弦相似度的不同之处。

根据欧氏距离和余弦相似度各自的计算方式和衡量特征,分别适用于不同的数据分析模型:欧氏距离能够体现个体数值特征的绝对差异,所以更多的用于需要从维度的数值大小中体现差异的分析,如使用用户行为指标分析用户价值的相似度或差异;而余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感,更多的用于使用用户对内容评分来区分用户兴趣的相似度和差异,同时修正了用户间可能存在的度量标准不统一的问题(因为余弦相似度对绝对数值不敏感)。

调整余弦相似度 —— Adjusted Cosine Similarity
在余弦相似度的介绍中说到:余弦相似度更多的是从方向上区分差异,而对绝对的数值不敏感。因此没法衡量每个维数值的差异,会导致这样一个情况:比如用户对内容评分,5分制,X和Y两个用户对两个内容的评分分别为(1,2)和(4,5),使用余弦相似度得出的结果是0.98,两者极为相似,但从评分上看X似乎不喜欢这2个内容,而Y比较喜欢,余弦相似度对数值的不敏感导致了结果的误差,需要修正这种不合理性,就出现了调整余弦相似度,即所有维度上的数值都减去一个均值,比如X和Y的评分均值都是3,那么调整后为(-2,-1)和(1,2),再用余弦相似度计算,得到-0.8,相似度为负值并且差异不小,但显然更加符合现实。

### 编写 `cosine_similarity` 函数 为了实现一个能够计算二维平面向量之间余弦相似度的 Python 函数,可以利用 NumPy 库来进行高效的数值运算。该函数不仅会考虑常规情况下两个非零向量间的夹角余弦值,还会特别处理其中一个或两个输入为零向量的情形。 #### 处理零向量的情况 当任意一方为零向量时,由于分母会出现除以零的操作,因此定义此时两者的余弦相似度应返回特定值——通常设定为 `-1` 或者抛出异常提示用户注意这种特殊情形[^1]。 以下是具体的实现方式: ```python import numpy as np def cosine_similarity(vec_a, vec_b): """ 计算两个二维向量之间的余弦相似度 参数: vec_a (list or tuple): 向量A,长度为2的一维数组 vec_b (list or tuple): 向量B,长度为2的一维数组 返回: float: 介于[-1, 1]区间的浮点数表示两者间的角度余弦;若存在零向量,则返回-1. """ # 将输入转换成numpy array并检查合法性 a = np.array(vec_a).reshape(-1,) b = np.array(vec_b).reshape(-1,) if len(a) != 2 or len(b) != 2: raise ValueError("Input vectors must be of length 2.") norm_a = np.linalg.norm(a) norm_b = np.linalg.norm(b) # 如果任意向量模长为0,则认为无法比较,返回-1作为标记 if norm_a == 0 or norm_b == 0: return -1 dot_product = np.dot(a,b) cos_sim = dot_product / (norm_a * norm_b) return cos_sim ``` 此版本的 `cosine_similarity` 函数适用于任何一对二维向量,并能妥善应对可能出现的零向量状况。对于图像数据而言,在将其转化为一维特征向量之前,可以通过上述方法先理解基本原理[^3]。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值