tf-idf

本文介绍了TF-IDF(词频-逆文档频率)的概念及其在信息检索中的应用。TF-IDF是一种用于评估文档中词语重要性的统计方法,它通过考虑词语在文档中的出现频率以及在整个文档集中的罕见程度来确定权重。文章详细解释了TF(Term Frequency)和IDF(Inverse Document Frequency)的计算方法,并给出了如何利用这些权重来计算查询和文档之间的匹配分数。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

TF-IDF 是为了解决 documentterm 的权重问题。

TF (term frequency)

将一个 document 中的每一个 term 都赋予一个权重,最简单的方法就是将 term 在此 document 中出现的次数。用频数表示权重的方法叫做 TF,数学表示为: tft,d ,表示 “document” d 中 “term” t 出现的次数。

IDF(Inverse document Frequency)

使用 TF 方法进行 query 有个很严重的问题:所有的 query term 都被同等的对待。实际情况下,并不是所有的 term 都具有同样的辨别力。比如说,and 这个 term 几乎会出现在所有的 document 中。一个想法是,使用 termdocumentfrequency 来调整 使用 term frequency计算出来的 term 的权重 。idf 就是这么一个调整系数。

dft : 集合中,包含 “term” tdocument 个数

idft=logNdft : 其中 N 表示 集合中 document 的个数。 值越大,表示 “term” t 更具有辨别力。

tf-idf weighting

tf-idf weighting 的公式如下:

tf-idft,d=tft,didft

在 Query 情况下,如何计算document 的 Score:
Score(q,d)=tqtf-idft,d

参考资料

https://nlp.stanford.edu/IR-book/html/htmledition/inverse-document-frequency-1.html

https://nlp.stanford.edu/IR-book/html/htmledition/term-frequency-and-weighting-1.html

https://nlp.stanford.edu/IR-book/html/htmledition/tf-idf-weighting-1.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值