tf-idf 问题

本文详细介绍了如何使用对数方法计算查询项和文档中的词项权重,进而计算它们之间的余弦相似度。包括计算词频、逆文档频率、长度计算等关键步骤。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

习题 6-19:(信息检索导论)

计算查询digital cameras及文档digital cameras and video cameras的向量空间相似度并 将结果填入表6-1的空列中。假定N=10 000 000(总文档个数=N),对查询及文档中的词项权重(wf对应的列) 采用对数方法计算,查询的权重计算采用idf,而文档归一化采用余弦相似度计算。将 and 看成 是停用词。请在tf列中给出词项的出现频率,并计算出最后的相似度结果。
                        表6-1 习题6-19中的余弦相似度计算
 

    又题目可知:查询q: digital cameras

                     某文档:digital cameras and video cameras

计算他们两个相似度,其实只需要求出上面那个表即可。所以编程也是,只需要code出上面表内容即可。

 答案:

camera在单词查询项只出现1次,文档里出现2,所以tf=2.

这里wf=1+log tf 

所以camera在文档的wf=1.3

idf=lg(N/df) 代入公式即可求。

 

最后length(query)=query的所有词项的tf-idf 欧氏距离

3.78=sqrt(3^2 + 2.3^2)

 

 计算文档和查询的tf-idf ,是用作 计算 文档评分、词项权重的。

 

 

 

 

 

转载于:https://www.cnblogs.com/lifegoesonitself/archive/2013/06/04/3116793.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值