如何计算idf

本文探讨了如何利用google收录的中文网页作为文档集来估算idf,并以一篇关于《中国的蜜蜂养殖》的文章为例,详细计算了相关词汇的tf-idf值,解释了idf在信息检索和推荐系统中的作用。

我们这道一个单词的idf的计算公式可以如下:

上面这个公式需要先要有一个语料库,如果此时你恰好没有这样的一个语料库,那你要怎么去估计这个idf呢?

现在假定在一篇《中国的蜜蜂养殖》文章当中,假定该文长度为1000个词,“中国”,“蜜蜂”,“养殖”各出现了20次,则这三个词的词频(TF)都为0.02.

为了计算这些词的idf,有一个很方便的方法,我们可以将google收录的中文网页当成一个文档集(corpus),那么如何估算这个文档集合的大小呢? 我们知道在中文文档中,“的”几乎会出现在每一个文档中,所以我们可以通过google  “的” 所包含的网页数目近似认为是整个文档集的大小,发现总共有250亿张。

包含"中国"的网页共有62.3亿张,包含"蜜蜂"的网页为0.484亿张,包含"养殖"的网页为0.973亿张。则它们的逆文档频率(IDF)和TF-IDF如下:



参考资料:

TF-IDF与余弦相似性的应用(一):自动提取关键词:http://www.ruanyifeng.com/blog/2013/03/tf-idf.html

在自然语言处理(NLP)中,IDF(逆文档频率,Inverse Document Frequency)是TF-IDF模型中的关键组成部分之一,用于衡量一个词在整个文档集合中的普遍重要性。IDF 的基本思想是:如果一个词在很多文档中都出现,那么它对于区分文档内容的重要性就较低;反之,如果一个词只在少数文档中出现,则它可能具有较高的区分度。 ### IDF 的标准公式如下: $$ \text{IDF}(t) = \log \left( \frac{N}{1 + \text{df}(t)} \right) $$ 其中: - $ N $ 是文档总数; - $ \text{df}(t) $ 是包含词 $ t $ 的文档数量; - 加1是为了防止分母为0的情况。 ### 示例计算 假设有一个文档集合包含5个文档($ N = 5 $),其中词“机器学习”出现在2个文档中(即 $ \text{df}(\text{“机器学习”}) = 2 $),则其IDF值为: $$ \text{IDF}(\text{“机器学习”}) = \log \left( \frac{5}{1 + 2} \right) = \log \left( \frac{5}{3} \right) \approx 0.5108 $$ 在实际实现中,IDF通常会对数结果进行平滑处理,例如使用: $$ \text{IDF}(t) = \log \left( \frac{N + 1}{1 + \text{df}(t)}} \right) $$ 这样可以进一步避免极端值对模型的影响。 ### Python 示例代码 以下是一个计算IDF的简单Python实现: ```python import math from collections import defaultdict def compute_idf(documents): N = len(documents) df = defaultdict(int) # 统计每个词出现的文档数 for doc in documents: unique_words = set(doc) for word in unique_words: df[word] += 1 idf = {} for word, freq in df.items(): idf[word] = math.log((N + 1) / (1 + freq)) # 平滑处理 return idf # 示例文档集合 documents = [ ["机器", "学习", "是", "人工智能", "的重要", "分支"], ["深度", "学习", "属于", "机器", "学习", "的", "一个", "子领域"], ["自然", "语言", "处理", "也", "广泛", "使用", "机器", "学习"], ["人工智能", "已经", "取得了", "很大", "进展"], ["机器", "学习", "方法", "在", "数据分析", "中", "广泛应用"] ] idf_values = compute_idf(documents) for word, value in idf_values.items(): print(f"{word}: {value:.4f}") ``` 该代码会输出每个词的IDF值,帮助构建TF-IDF特征向量。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值