TF-IDF算法

最新推荐文章于 2023-06-28 17:29:04 发布

CANDY_J

最新推荐文章于 2023-06-28 17:29:04 发布

阅读量243

点赞数

分类专栏：统计方法

本文链接：https://blog.youkuaiyun.com/JOHN_XIONG/article/details/113808776

版权

TF-IDF 词频逆文档频率关键词抽取文本分析

关键词由优快云通过智能技术生成

统计方法专栏收录该内容

2 篇文章

订阅专栏

1.算法思路

通常情况下，如果某个词很重要，它在某一篇文章中出现的频率相对来说是比较高的。所以，可以通过"词频"（Term Frequency，缩写为TF）进行统计。但是，像”的“、”是“等停用词几乎在所有文章中出现的次数都挺高，但却没有什么实际的意义。相反，如果某个词在其他文章中比较少见，但是它在某一篇文章中多次出现，那么它就很可能是这篇文章的关键词。

所以，就需要在词频的基础上引入权重的概念——即“逆文档频率”（Inverse Document Frequency，缩写为IDF）。对于几乎在所有文章中都常见的词语赋予较小的权重，对于在特定文章中才常见的词语赋予较高的权重。

有了"词频"（TF）和"逆文档频率"（IDF）以后，将这两个值相乘，就得到了一个词的TF-IDF值。在某一篇文章中，某些词语的TF-IDF值越大，就说明了这些词语在文章中越关键。所以，TF-IDF值排在最前面的几个词，就是这篇文章的关键词

2.算法步骤

(1) 计算词频(TF)

$词频 (T F) = 某个词语在文章中出现的次数$

(2) 词频标准化

考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。

$\frac{某个词语在文章中出现的次数}{文章的总词语数}$

(3) 计算逆文档频率(IDF)

$log(\frac{语料库文档总数}{包含该词的文档数+1})$

注：

分母+1是为了避免分母为0
包含该词语的文档数越多，说明该词语越常见，逆文档率就越小，也说明该词语很可能不是关键词

(4)计算TF-IDF

$TF \times 逆文档频率(IDF)$

注：

某个词语的TF-IDF值越大，说明该词语越关键

参考文章

《基于 TF-IDF 中文文本分类实现》
《基于 Spark 的并行贝叶斯垃圾邮件分类系统》
http://www.ruanyifeng.com/blog/2013/03/tf-idf.html
https://www.cnblogs.com/justcooooode/p/7831157.html
https://blog.youkuaiyun.com/xuchaoxin1375/article/details/110726938