关于TF-IDF的一个介绍

张焚雪

于 2024-10-02 12:02:52 发布

阅读量1.6k

点赞数 32

文章标签： tf-idf 机器学习自然语言处理 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/2301_79096986/article/details/142674918

版权

在这篇文章中我将介绍TF-IDF有关的一些知识，包括其概念、应用场景、局限性以及相应的代码。

一、概念

TF-IDF（Term Frequency-Inverse Document Frequency）是一种广泛用于信息检索和文本挖掘中的统计方法，用于评估一个词在一个文档或文档集合中的重要性。TF-IDF值反映了词语的重要性，它由两部分组成：词频（Term Frequency, TF）和逆文档频率（Inverse Document Frequency, IDF）。

1.1 TF

Term Frequency (TF)：

词频是指某个词在文档中出现的次数。它是衡量一个词在文档中重要性的一个基本指标。

计算公式为：

1.2 IDF

Inverse Document Frequency (IDF)：

逆文档频率（IDF）是为了补偿词频（TF）的不足而引入的概念。IDF的作用是降低那些在很多文档中都出现的词的重要性，同时提高那些在较少文档中出现的词的重要性。换句话说，IDF试图捕捉一个词的独特性和区分能力。

计算公式为：

其中：

其中 N 是文档总数，

df(t)是包含词 t 的文档数量，

+1是为了避免 df(t)为0时导致的分母为0问题。

1.3 TF-IDF

TF-IDF是TF和IDF的乘积，综合考虑了词频和逆文档频率两个因素。这样既反映了词语在文档中的重要性，又考虑了词语的独特性。

因此，其计算公式为：

二、应用场景

信息检索：在搜索引擎中，可以通过对于TF-IDF的计算来寻找目标目标文档。其中，关于检索模型可以分为布尔模型、向量模型、概率模型这三大种。而其中的向量模型就会用到TF-IDF来计算相似度。

具体的，在向量空间模型中，每个文档和查询都被表示为一个向量，其中每个维度对应一个词汇的TF-IDF值。文档向量和查询向量之间的相似度通常是通过余弦相似度来计算的：

其中，A与B分别为文档向量和查询向量，而||A||与||B||则是其对应的模长。

举个例子：

假设我们有两个文档：

最低0.47元/天解锁文章

博客等级

码龄2年

54
原创

1222
点赞

927
收藏

725
粉丝

关注

私信

热门文章

上一篇：: 关于分箱的一些介绍

下一篇：: 关于懒惰学习与渴求学习的一份介绍

最新评论

关于数学建模的一些介绍
张焚雪: 在通过文中的建模过程建模后，可以考虑跨专业跨学科，将专家知识引入数学建模中；建模时考虑自然现象的非线性特征和不确定性因素；对于插值技术的选择要基于数据特性和欲解决问题类型；此外对于模型要明确其范围与局限性，以减少过度解读和过拟合，这样的措施可以提高精确性。
关于数学建模的一些介绍
征途黯然.: 如何运用数学建模和插值技术精确描述自然现象？
关于数学建模的一些介绍
旷世奇才李先生: 关于数学建模的一些介绍，这篇文章很好，值得一读。
关于决策树集成的一份介绍
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天值得看】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/619318263。
关于KNN算法的一些介绍
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天最佳新人】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/619245653。

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。