余弦相似度和adjust 余弦相似度
度量两个信息实体之间的相似性或距离是所有信息发现任务(无论是IR还是数据挖掘)的核心需求。采用适当的措施不仅可以提高信息选择的质量,而且有助于减少时间和处理成本。这些措施可能会被使用,例如,剽窃检测。余弦相似度是文本挖掘和信息检索中常用的基于向量的相似度度量方法。该方法将比较字符串转化为向量空间,利用欧几里德余弦规则计算相似度。这种方法通常与其他方法相结合来限制向量空间的维数。余弦相似度是内积空间中两个非零向量之间的相似度的度量,度量它们之间夹角的余弦值。例如,在信息检索和文本挖掘中,每个术语在理论上被分配一个不同的维度,而一个文档的特征是一个向量,其中每个维度的值对应于该术语在文档中出现的次数。然后,余弦相似性给出了一个有用的度量方法,来衡量两个文档在主题方面有多相似。皮尔逊相似度度量是基于一对物品的普通用户的评分与这些物品的平均评分的偏离程度。调整余弦相似度度量是基于向量的相似度的一种改进形式,我们考虑到不同的用户有不同的评分方案;换句话说,一些用户可能会对条目进行高评分,而另一些用户可能会将较低的评分作为首选。为了从基于向量的相似性中消除这个缺陷,我们从每个用户对相关项的评分中减去每个用户的平均评分。余弦方法为度量提供了一种类型的贝叶斯正则化,确保相似性不完全由两个用户共有的项的子集(可能很小)决定。这在皮尔逊相关性中并不存在(尽管它可以通过显著性加权来添加),因此,在用户个人资料中往往有非常不同的条目集的上下文中,皮尔逊(未经纠正的)的表现原则上会更差。皮尔逊相关就是减去平均值后的余弦相似度。这很重要,因为均值代表总体积。如果总体积是有实质意义的,那么您将希望使用余弦相似性(或某种保持总体积的度量)。然而,通常它并没有什么实质性的意义,删除它是可取的。“调整余弦”相似性是通过在计算余弦公式之前减去平均值来实现的。从这个意义上说,调整后的余弦函数与皮尔逊相关函数有相同的数学公式。然而,如果公式应用不同,即使用的评级集不相同,则结果将不匹配。
余弦相似度和调整的余弦相似度
最新推荐文章于 2025-03-19 15:40:19 发布