几种用户相似度计算方法及其优缺点

本文探讨了在垂直搜索引擎环境下进行用户协同过滤时,如何通过填充用户评分数据的稀疏性,以及采用余弦相似性、皮尔森系数和调整余弦相似性等算法计算用户间相似性。提出了一种自顶向下的评分填充策略,将子项目分数与父项目分数按规则运算后作为最后评分,以增强推荐系统的准确性和覆盖率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 进行用户协同过滤时,一个关键问题是如何计算用户之间的相似性。比较常见的计算用户相似度的算法有余弦相似性、皮尔森系数、调整余弦相似性三种。

    这三种相似性都是基于一个称为用户-项目矩阵的数据结构来进行计算的。该数据结构如下:
    几种用户相似度计算方法及其优缺点

    余弦相似性:把用户评分看作是n维项目空间上的向量,通过计算两个向量之间的夹角余弦来度量两个用户之间的相似性。

    皮尔森系数:又称相关相似性,通过Peason相关系数来度量两个用户的相似性。计算时,首先找到两个用户共同评分过的项目集,然后计算这两个向量的相关系数。
    调整余弦相似性:将余弦相似性中的向量,减去用户平均评分向量后,再计算夹角余弦以修正不同用户评分尺度不同的问题。

    在数据比较稀疏的情况下,这几种方法均存在一定问题:余弦相似性和调整余弦相似性对于用户未评价项目评分为0的假设;皮尔森系数中用户共同评分项目集可能很小。

    在垂直搜索引擎中,用户数据具有相当的稀疏性。所以需要通过一定的手段来消除这种稀疏性。我的思路:
    1.垂直搜索中存在一个项目的目录(树形结构),如果自顶向下进行评分,并将子项目分数与父项目分数按一定规则运算后作为最后评分。从而填充稀疏矩阵为密集矩阵。
    2.按照密集矩阵进行推荐。

   

 

转载于:https://my.oschina.net/u/347386/blog/500806

人脸识别模型的原理是利用图像处理技术和机器学习算法,对人脸图像进行特征提取和匹配,从而实现识别人脸的目的。 目前较为常见的人脸识别方法有以下几种: 1. 基于传统方法的人脸识别:利用特征提取算法,如PCA、LDA等,将人脸图像转化为低维特征向量,并通过比较特征向量的距离来判断是否匹配。优点是算法较为简单,适用于小样本数据;缺点是分类精度较低,对光照、表情、遮挡等因素敏感,并且无法进行较大规模的识别。 2. 基于深度学习的人脸识别:采用深度卷积神经网络(CNN)进行人脸特征提取,得到高维特征向量,并通过相似度匹配或分类器进行人脸识别。优点是具有较高的识别精度和较强的鲁棒性,能够应对复杂的场景和各种变化;缺点是需要大量的训练数据和计算资源,并且存在过拟合的问题。 3. 基于迁移学习的人脸识别:利用已有的预训练模型,在新的数据集上进行微调或调整,以适应新的识别任务。优点是可以避免从头开始训练,提高模型的泛化能力;缺点是需要选择合适的预训练模型和微调策略,否则可能会影响识别效果。 总结起来,基于深度学习的人脸识别模型在识别精度和鲁棒性方面具有较大优势,但需要大量的训练数据和计算资源,且存在过拟合的问题。基于传统方法的人脸识别在精度和效率方面相对较低,但可以适用于小样本数据和低计算资源环境。基于迁移学习的人脸识别既考虑了模型的泛化能力,又具有较高的效率,但需要合适的预训练模型和微调策略。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值