目录
(2)IDF(逆向文件频率 Inverse Document Frequency)
1.基本介绍
定义:TF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文本频率)。TF指词频,IDF指的是逆文本频率。TF-IDF是一种用于信息检索与数据挖掘的常用加权技术,可以评估一个词在一个文件集或者一个语料库中对某个文件的重要程度。一个词语在一篇文章中出现的次数越多,同时在所有文章中出现的次数越少,越能够代表该文章的中心意思,字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降,这就是TF-IDF的含义。适用于信息检索、文本挖掘的常用加权技术。
TF-IDF的主要思想是:如果某个单词在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
(1)TF(词频 Term Frequency)
词频表示词条(关键字)在文本中出现的频率。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止它偏向长的文件。
公式:
词条W在一个文件中出现的次数/该文件中所有词条数目
其中 ni,j 是该词在文件 dj 中出现的次数,分母则是文档 dj 中所有词汇出现的次数总和;
(2)IDF(逆向文件频率 Inverse Document Frequency)
某一特定词语的IDF,可以由总文件数目除以包含该词语的文件的数目,再将得到的商取对数得到