TF-IDF(Term Frequency-Inverse Document Frequency)是一种用于文本挖掘和信息检索的加权统计方法,帮助衡量一个词语(术语)在一个文档集或一个语料库中的重要性。TF-IDF广泛应用于搜索引擎、文本分类和推荐系统中。
TF-IDF的概念与计算
TF-IDF由两个主要部分组成:
-
词频 (Term Frequency, TF):
- 衡量一个词语在单个文档中的出现频率。
- 可以用不同的方法计算,但最常见的计算方式是:
[
\text{TF}(t, d) = \frac{\text{词语}t\text{在文档}d\text{中出现的次数}}{\text{文档}d\text{中所有词语出现的总次数}}
]
-
逆文档频率 (Inverse Document Frequency, IDF):
- 衡量一个词语在整个文档集中的重要性。
- 通过减少那些在很多文档中都出现的词语的权重(如“the”、“is”),突出那些在少数文档中出现的词语。
- 计算公式是:
[
\text{IDF}(t, D) = \log{\left(\frac{N}{\text{包含词语}t\text{的文档数量}}\right)}
]
其中,( N ) 是文档集的总文档数。
-
TF-IDF:
- 将TF和IDF结合起来,计算公式为&#