推荐系统--------------TF-IDF

TF-IDF是一种评估词语在文档中重要性的统计方法,常用于搜索引擎和文本挖掘。在推荐系统中,通过将物品的标签视为文档,计算每个标签的TF-IDF值,来改进基于UGC的推荐,对热门标签和物品进行适当的惩罚,提高推荐的精准性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

TF-IDF:词频-逆文档频率
是一种用于资讯检索与文本挖掘的常用加权技术
TF-IDF是一种统计方法,用以评估一个字词对于一个文件或者一个语料库中的其中一份文件的重要程度,字词的重要性随着它在文件中出现的次数成正比增加,但是同时会随着它在语料库中出现的频率成反比下降。
TF-IDF的主要思想是:如果某个词或者短语在一片文章中出现的TF高,并且在其他文章中很少出现,则认为此词语或者短语具有很好的类别区分能力,适合用来分类
TF-IDF加权的各种形式长被搜索引擎应用,作为文件与用户查询之间相关程度的度量或者评级
TF:词频—>指的是某一种给定的词语在该文件中出现的频率,这个数字是对词数的归一化,以防止偏向更长的文件,(同一个词语在长文件里可能会比段文件有更高的次数,而不管该词语重要是否)
在这里插入图片描述

其中,TFi.j表示词语i在文档j中出现的频率,ni.j表示i在j中出现的次数,n .j表示文档j的总次数
IDF------->逆向文件频率
是一个词语普遍重要性的度量,某一特定的词语IDF,可以有总文档数目除以包含盖刺鱼之文档数目,再将得到的商取对数得到:
在这里插入图片描述
其中IDFi表示词语i在文档集中的逆文档频率,N表示文档集中的文档总数,Ni表示文档集中包含了词语i的文档数(注意给分子分母加1,是为了分母为零,式子不成立了)
TF-IDF对基于UGC推荐的改进:
UGC的公式:
在这里插入图片描述
为了避免热门标签和热门物品获得更多的权重,我们需要对热门进行惩罚,
借鉴TF-IDF的思想,以一个而物品的所有标签作文“文档”,标签作为“词语”,从而计算标签的“词频”(在物品所有标签中的频率)和“逆文档频率”(在其他物品标签中普遍出现的频率)
由于物品i的所有标签“n
.j”应该对标签权重没有影响,而“所有标签总数”n对于所有标签是一定的,所以这两项可以略去,在简单算法的基础上,直接加入对热门标签和热门物品的惩罚:
在这里插入图片描述
其中。n b(u)记录了标签b被多少个不同用户使用过,n i(u)记录了物品i被多少个不同用户打过标签

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值