《大数据》笔记 TF.IDF

本文详细介绍了TF-IDF在Lucene中的应用,用于计算关键词和检索结果的相关度。通过解释TF(Term Frequency)和IDF(Inverse Document Frequency)的概念,阐述了如何使用TF-IDF来评估词的重要性,并举例说明如何识别文档中的关键词汇。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

TF.IDF在Lucene中被用来计算关键词和检索结果的相关度。

TF = Term Frequency

反映关键词在某篇文档中出现的频率,频率越高,自然就越相关

TF不是(关键词出现个数)/(所有词个数),而是做了归一化的(关键词出现个数)/(这篇文档中出现次数最多的那个词的出现个数)。


IDF = Inverse Document Frequency

首先看DF

DF是(出现了关键词的文档数)/(总文档数)

因此DF越大,说明这个词越常见,而常见的词不能很好的反映相关度(比如”的“字可能在某篇文档处出现了100次,但它几乎在所有文档中都出现,此时的DF=1,说明”的“字不能很好的反映相关度)

IDF =log (1/(我所定义的DF)) 越高相关度越大


TF * IDF反映词与文档的相关度,越大越相关。

如”故乡的云“,分为”故乡“,”的“,”云“,TF.IDF为它们的权重,TF.IDF越大说明这个词越重要,由常识可知,”故乡“和“云”的TF.IDF将大于"的"字,所以前两个词是反映文档内容的关键词。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值