TF-IDF算法学习

最新推荐文章于 2024-06-13 23:22:01 发布

原创最新推荐文章于 2024-06-13 23:22:01 发布 · 500 阅读

0 ·

CC 4.0 BY-SA版权

TF-IDF算法通过词频和逆文档频率为每个词分配重要性权重。常见词权重小，罕见词权重大，高TF-IDF值的词被视为文章关键词。算法包括词频标准化、逆文档频率计算及最终的TF-IDF值计算。TF-IDF简单快速但忽视词的位置信息和全面性。

部署运行你感兴趣的模型镜像

在了解了lexrank算法之后，发现要去掌握tf-idf算法：

用统计学语言表达，就是在词频的基础上，要对每个词分配一个"重要性"权重。最常见的词（"的"、"是"、"在"）给予最小的权重，较常见的词给予较小的权重，较少见的词给予较大的权重。这个权重叫做"逆文档频率"（Inverse Document Frequency，缩写为IDF），它的大小与一个词的常见程度成反比。

知道了"词频"（TF）和"逆文档频率"（IDF）以后，将这两个值相乘，就得到了一个词的TF-IDF值。某个词对文章的重要性越高，它的TF-IDF值就越大。所以，排在最前面的几个词，就是这篇文章的关键词。

下面就是这个算法的细节。

第一步，计算词频。

考虑到文章有长短之分，为了便于不同文章的比较，进行"词频"标准化。

或者

第二步，计算逆文档频率。

这时，需要一个语料库（corpus），用来模拟语言的使用环境。

如果一个词越常见，那么分母就越大，逆文档频率就越小越接近0。分母之所以要加1，是为了避免分母为0（即所有文档都不包含该词）。log表示对得到的值取对数。

第三步，计算TF-IDF。

可以看到，TF-IDF与一个词在文档中的出现次数成正比，与该词在整个语言中的出现次数成反比。

TF-IDF算法的优点是简单快速，结果比较符合实际情况。缺点是，单纯以"词频"衡量一个词的重要性，不够全面，有时重要的词可能出现次数并不多。而且，这种算法无法体现词的位置信息，出现位置靠前的词与出现位置靠后的词，都被视为重要性相同，这是不正确的。（一种解决方法是，对全文的第一段和每一段的第一句话，给予较大的权重。）

您可能感兴趣的与本文相关的镜像