1、介绍
TF-IDF(term frequency–inverse document frequency,词频-逆向文件频率)是一种用于信息检索与文本挖掘的常用加权技术。
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。
TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
1.1 TF
词频(TF)表示词条(关键字)在文本中出现的频率。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。公式如下:
tfi,j=ni,j∑knk,jtf_{i,j}=\frac{n_{i,j}}{\sum_{k}n_{k, j}}tfi,j=∑knk,jni,j
其中ni,jn_{i,j}ni,j是第i个词在第j个文件中出现的次数,分母则是第j个文件中所有词汇出现的次数总和。
1.2 IDF
逆向文件频率 (IDF) :某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到。如果包含词条t的文档越少, IDF越大,则说明词条具有很好的类别区分能力。公式如下:
idfi=log∣D∣∣j:ti∈dj∣idf_{i}=log\frac{|D|}{|{j:t_{i}\in d_{j}}|}idfi=log∣j:ti∈dj∣∣D∣
其中,|D| 是语料库中的文件总数。 |{j:ti∈dj}| 表示包含词语 ti 的文件数目(即 ni,j≠0 的文件数目)。如果该词语不在语料库中,就会导致分母为零,因此一般情况下使用 1+|{j:ti∈dj}|
1.3 TF-IDF
某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-IDF。因此,TF-IDF倾向于过滤掉常见的词语,保留重要的词语。公式如下:
tf−idf=tf∗idftf-idf=tf*idftf−idf=tf∗idf
2、TF-IDF应用
(1)搜索引擎;(2)关键词提取;(3)文本相似性;(4)文本摘要