TF-IDF是一种用于信息检索与文本挖掘的常用加权技术。它是一种统计方法,用以评估一个词语对于一个文件集或一个语料库中的其中一份文件的重要程度。它的主要思想是:如果某个词语在一篇文章中出现的频率高(Term Frequency,TF),并且在其他文章中很少出现(Inverse Document Frequency,IDF),则认为这个词语具有很好的类别区分能力,对这篇文章的内容有很好的指示作用。
1. 词频(TF)
- 定义:表示词条(关键字)在文档中出现的频率。
- 计算公式:
- 目的:评估词条在文档中的重要性。
2. 逆文档频率(IDF)
- 定义:表示词条的普遍重要性。
- 计算公式:
- 目的:评估词条的稀有程度,降低常见词的权重。
3. TF-IDF
- 定义:一个词条在一个文档中的重要性与它在语料库中的稀有程度的乘积。