TF-IDF 简介

最新推荐文章于 2025-06-10 15:54:49 发布

原创最新推荐文章于 2025-06-10 15:54:49 发布 · 6k 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#TF-IDF #词频 #逆文档频度 #相似度 #关键词

文本挖掘专栏收录该内容

1 篇文章

订阅专栏

        
       假设我们手头有大量的文档（或网页）, 通常我们会比较关心以下几个问题：

1. 每一个文档的关键词（或主题词）包括哪些？
2. 给定一个（或一组）关键词，与这个（或组）词最相关的文档是哪一个？
3. 给定一个文档，哪个（或哪些）文档与它具有最大的相似度呢？

       回答上述三个问题的关键是：对于一个给定的词和一个给定的文档，定义一个可以用来衡量该词对该文档相关性（或重要性）的指标。那么，如何定义这样的一个指标呢？

       本文将简要介绍词频-逆文档频度（Term Frequency - Inverse Document Frequency，TF-IDF）技术，它是一种用于资讯检索与文本挖掘的常用加权技术，可以用来评估一个词对于一个文档集或语料库中某个文档的重要程度。