1、概念
余弦相似度(cosine similarity) 是一种度量两个向量相似度的方法,尤其适合在文本分析和推荐系统等领域用于比较高维向量的相似性。它计算两个向量夹角的余弦值,余弦值越接近1,说明两个向量越相似;接近0,则表示无相似性;负值则表示相反的方向。余弦相似度公式如下:
cossim(A,B)=A⋅B∥A∥×∥B∥
\text{cossim}(A, B) = \frac{A \cdot B}{\|A\| \times \|B\|}
cossim(A,B)=∥A∥×∥B∥A⋅B
其中,A⋅BA \cdot BA⋅B 表示两个向量的点积,∥A∥\|A\|∥A∥ 和 ∥B∥\|B\|∥B∥分别是向量的模。
2、作用机制
余弦相似度通过比较两个向量的方向,而不是幅度,来评估相似度。 这使其对长度差异不敏感,特别适用于向量化表示的文本数据、嵌入表示等。这种方法使得两个在特征空间中非常相似的对象得到高相似度评分,忽略了原始数据中不同的数量级。
3、应用场景
- 文本相似度:在自然语言处理中,余弦相似度常用于计算两个文本片段的相似性,比如句子或文档之间的相似度。
- 推荐系统:用于比较用户偏好或项目特征向量,通过计算余弦相似度来提供个性化推荐。
- 信息检索:在搜索引擎中,用于评估用户查询与文档之间的相似性,从而返回最相关的结果。
- 图嵌入分析:在知识图谱或其他嵌入式结构中,余弦相似度用于比较节点或关系的嵌入表示,以找到最相似的实体或关系。